提交分布式训练
更新时间:
参考本节提交分布式离线训练任务,训练完成后即释放占用的计算资源。
主流分布式训练框架均可参考本章提交训练,但多任务角色的情况下,需分别指定启动命令。
# 前提条件
- 您的账户下配额剩余量足够。
- 您的模型训练代码是支持分布式的。
# 操作步骤
# 1. 进入 “提交训练任务” 页面
- 平台首页选择 项目,随后单击目标项目,进入该项目详情页。
- 单击详情页右上角 离线任务,进入 训练任务 页面。
- 随后单击右上角 提交任务 按钮,进入任务配置页面。
# 2.填写任务信息
上述参数,参考 提交单机训练-参数说明 填写。
需特殊关注参数:
任务模式:选择 自定义分布式任务。
说明:将一个任务在多个实例中运行,从而达到多机多卡的训练效果。可添加任务角色,任务角色代表不同的 AI 训练目标,每个任务角色可以拥有不同的计算资源配置。
资源配置
在 任务角色1 中配置该角色的 实例个数、实例规格。
- 实例个数
可理解为参与训练的机器数,比如可配置为 3。 - 实例规格
配置方法参考 参数说明-资源配置。
为保障多角色任务调度效率,平台暂时仅支持所有任务角色使用同一 实例规格,在 任务角色1 中选定,如需更改 实例规格,需切换到 任务角色1 中重新选定。
- 实例个数
(可选)单击 任务角色1 旁的 + 号,新增任务角色。 如果任务不涉及多个任务角色,则无需执行本步骤及下一步。
(可选)为 任务角色2 设置 实例个数、资源配置 和 启动命令。
# 3. 提交任务
单击 提交 按钮。
← 提交单机任务 提交Horovod分布式训练 →