跳转至

开启 MIG 功能

本章节介绍如何开启 NVIDIA MIG 功能方式,NVIDIA 当前提供两种在 Kubernetes 节点上公开 MIG 设备的策略:

  • Single 模式,节点仅在其所有 GPU 上公开单一类型的 MIG 设备。
  • Mixed 模式,节点在其所有 GPU 上公开混合 MIG 设备类型。

详情参考 NVIDIA GPU 卡使用模式

前提条件

  • 待安装 GPU 驱动节点系统要求请参考:GPU 支持矩阵
  • 确认集群节点上具有对应型号的 GPU 卡(NVIDIA H100A100A30 Tensor Core GPU), 详情参考 GPU 支持矩阵
  • 节点上的所有 GPU 必须:属于同一产品线(例如 A100-SXM-40GB)

安装 gpu-operator Addon

参数配置

安装 Operator 时需要对应设置 MigManager Config 参数, 默认为 default-mig-parted-config ,同时也可以自定义切分策略配置文件:

single

自定义切分策略

  ## 自定义切分 GI 实例配置
  all-disabled:
    - devices: all
      mig-enabled: false
  all-enabled:
    - devices: all
      mig-enabled: true
      mig-devices: {}
  all-1g.10gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        1g.5gb: 7
  all-1g.10gb.me:
    - devices: all
      mig-enabled: true
      mig-devices:
        1g.10gb+me: 1
  all-1g.20gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        1g.20gb: 4
  all-2g.20gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        2g.20gb: 3
  all-3g.40gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        3g.40gb: 2
  all-4g.40gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        4g.40gb: 1
  all-7g.80gb:
    - devices: all
      mig-enabled: true
      mig-devices:
        7g.80gb: 1
  all-balanced:
    - device-filter: ["0x233110DE", "0x232210DE", "0x20B210DE", "0x20B510DE", "0x20F310DE", "0x20F510DE"]
      devices: all
      mig-enabled: true
      mig-devices:
        1g.10gb: 2
        2g.20gb: 1
        3g.40gb: 1
  # 设置后会按照设置规格切分 CI 实例
  custom-config:
    - devices: all
      mig-enabled: true
      mig-devices:
        3g.40gb: 2

在上述的 YAML 中设置 custom-config ,设置后会按照规格切分 CI 实例。

custom-config:
  - devices: all
    mig-enabled: true
    mig-devices:
      1c.3g.40gb: 6

设置完成后,在确认部署应用时即可使用 GPU MIG 资源

切换节点 GPU 模式

Note

切换 GPU 模式或者修改切分规格后需要重启 nvidia-mig-manager。

当我们成功安装 gpu-operator 之后,节点默认是整卡模式,在节点管理页面会有标识,如下图所示:

mixed

点击节点列表右侧的 ,选择 GPU 模式切换 ,然后选择对应的 MIG 模式以及切分的策略,这里以 MIXED 模式为例:

mig

这里一共有两个配置:

  1. MIg 策略:Mixed 以及 Single 。
  2. 切分策略:这里的策略需要与 default-mig-parted-config (或者用户自定义的切分策略)配置文件中的 key 保持一致。

点击 确定 按钮后,等待约一分钟左右刷新页面,MIG 模式切换成:

切换 mig