创建云上 Kubernetes 集群¶

部署 Kubernetes 集群是为了支持高效的 AI 算力调度和管理，实现弹性伸缩，提供高可用性，从而优化模型训练和推理过程。

前置条件¶

以 管理员身份 登录 AI 算力平台
创建并启动 3 台不带 GPU 的云主机用作集群的 Master 节点
- 配置资源，CPU 16 核，内存 32 GB，系统盘 200 GB（ReadWriteOnce）
- 网络模式选择 Bridge（桥接）
- 设置 root 密码或添加 SSH 公钥，方便以 SSH 连接
- 记录好 3 台主机的 IP
导航至 容器管理 -> 集群列表 ，点击右侧的 创建集群 按钮
按照向导，配置集群的各项参数

基本信息节点配置网络配置Addon 配置高级配置

配置完节点信息后，点击 开始检查 ，

每个节点默认可运行 110 个 Pod（容器组），如果节点配置比较高，可以调整到 200 或 300 个 Pod。
等待集群创建完成。
在集群列表中，找到刚创建的集群，点击集群名称，导航到 Helm 应用 -> Helm 模板 ，在搜索框内搜索 metax-gpu-extensions，点击卡片
点击右侧的安装按钮，开始安装 GPU 插件

应用设置Kubernetes 编排确认

输入名称，选择命名空间，在 YAMl 中修改镜像地址：
自动返回 Helm 应用列表，等待 metax-gpu-extensions 状态变为 已部署
到此集群创建成功，可以去查看集群所包含的节点。你可以去创建 AI 工作负载并使用 GPU 了。