提交单机任务
更新时间:
参考本节提交单机离线训练任务,训练完成后即释放占用的计算资源。
# 前提条件
本项目代码已 结束编辑,代码编辑中时无法提交离线训练。
# 操作步骤
平台首页选择 项目,随后单击目标项目,进入该项目详情页。
单击详情页右上角 离线任务,进入 训练任务 页面。
随后单击右上角 提交任务 按钮,进入任务配置页面。
参考如下说明,填写任务信息。
参数 说明 任务名称 不超过 64 个字符。 代码 选择是否使用代码。 数据 根据实际需要勾选训练所需数据集,训练时自动挂载所选数据集的默认版本,如需修改可在此手动切换。 模型 根据实际需要勾选训练所需模型,训练时自动挂载所选模型的默认版本,如需修改可在此手动切换。 任务模式 选择 单机任务。 资源配置 根据训练需求,选择合适的资源规格,关于规格详见资源规格说明。 启动命令 默认在训练环境的 /
目录下执行,最多可输入 10000 个字符,命令之间以换行符分割。命令示例及详情参考启动命令说明镜像 选择本次训练所用的镜像,以便构建训练环境。 自动停止 设置该训练持续的最长时间,以免该任务长期占用空间资源,设置后可更改。 单击 提交 按钮,提交训练。
如果配额不足,该任务可能进入排队,等待足够配额释放才会执行。
# 相关说明
# 资源规格说明
资源类型
按 GPU 计算能力高低依次划分为基础版(B)、标准版(S)、高级版(P)。每个版本中如有多个型号,则数字越大计算能力越强。资源规格
规格卡片上有该规格相应的定价、所包含的资源量、所在云的标识、以及相对数据和模型是否跨云的标识。
资源规格的选择需校验您空间、个人的剩余配额等资源是否足够,不够但仍提交了任务,则任务会进入排队等待足够的资源释放,才能被调度和运行。
Tips:
- 尽量选择无 跨云 标识的资源规格,这样任务运行就不涉及跨云。
- 数据/模型上有与资源规格同色的云标识,则无需同步。因此,如果必须跨云:
- 数据集偏大,则尽量选择与数据集有同色云标识的规格。
- 模型偏大,则尽量选择与模型有同色云标识的规格。
开发环境的数据模型同步标识在 项目-数据 中查看,训练任务的在本页数据/模型挂载处查看。
# 启动命令说明
为方便您能在启动命令中更好的安排模型训练,平台提供了有关于角色、数据集、代码、实例等相关的环境变量。 可单击 查看环境变量 查看还有哪些环境变量,并参考 环境变量说明 了解其含义和具体使用方式。
启动命令示例
#存储路径使用环境变量的启动命令
python3 $GEMINI_RUN/train_images.py --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir $GEMINI_DATA_IN1/DogsvsCats --train_dir $GEMINI_DATA_OUT
#存储路径未使用环境变量的启动命令
python3 /gemini/code/train_images.py --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir /gemini/data-1/DogsvsCats --train_dir /gemini/output