提交分布式训练

更新时间:

参考本节提交分布式离线训练任务,训练完成后即释放占用的计算资源。
主流分布式训练框架均可参考本章提交训练,但多任务角色的情况下,需分别指定启动命令。

# 前提条件

  • 您的账户下配额剩余量足够。
  • 您的模型训练代码是支持分布式的。

# 操作步骤

# 1. 进入 “提交训练任务” 页面

  1. 平台首页选择 项目,随后单击目标项目,进入该项目详情页。
  2. 单击详情页右上角 离线任务,进入 训练任务 页面。
  3. 随后单击右上角 提交任务 按钮,进入任务配置页面。

# 2.填写任务信息


上述参数,参考 提交单机训练-参数说明 填写。

需特殊关注参数:

  • 任务模式:选择 自定义分布式任务

    说明:将一个任务在多个实例中运行,从而达到多机多卡的训练效果。可添加任务角色,任务角色代表不同的 AI 训练目标,每个任务角色可以拥有不同的计算资源配置。

  • 资源配置

    1. 任务角色1 中配置该角色的 实例个数实例规格

      • 实例个数
        可理解为参与训练的机器数,比如可配置为 3。
      • 实例规格
        配置方法参考 参数说明-资源配置
        为保障多角色任务调度效率,平台暂时仅支持所有任务角色使用同一 实例规格,在 任务角色1 中选定,如需更改 实例规格,需切换到 任务角色1 中重新选定。
    2. (可选)单击 任务角色1 旁的 + 号,新增任务角色。 如果任务不涉及多个任务角色,则无需执行本步骤及下一步。

    3. (可选)为 任务角色2 设置 实例个数资源配置启动命令

# 3. 提交任务

单击 提交 按钮。