提交单机任务

更新时间:

参考本节提交单机离线训练任务,训练完成后即释放占用的计算资源。

# 前提条件

本项目代码已 结束编辑,代码编辑中时无法提交离线训练。

# 操作步骤

  1. 平台首页选择 项目,随后单击目标项目,进入该项目详情页。

  2. 单击详情页右上角 离线任务,进入 训练任务 页面。

  3. 随后单击右上角 提交任务 按钮,进入任务配置页面。

  4. 参考如下说明,填写任务信息。

    参数 说明
    任务名称 不超过 64 个字符。
    代码 选择是否使用代码。
    数据 根据实际需要勾选训练所需数据集,训练时自动挂载所选数据集的默认版本,如需修改可在此手动切换。
    模型 根据实际需要勾选训练所需模型,训练时自动挂载所选模型的默认版本,如需修改可在此手动切换。
    任务模式 选择 单机任务
    资源配置 根据训练需求,选择合适的资源规格,关于规格详见资源规格说明
    启动命令 默认在训练环境的 / 目录下执行,最多可输入 10000 个字符,命令之间以换行符分割。命令示例及详情参考启动命令说明
    镜像 选择本次训练所用的镜像,以便构建训练环境。
    自动停止 设置该训练持续的最长时间,以免该任务长期占用空间资源,设置后可更改。
  5. 单击 提交 按钮,提交训练。
    如果配额不足,该任务可能进入排队,等待足够配额释放才会执行。

# 相关说明

# 资源规格说明

  • 资源类型
    按 GPU 计算能力高低依次划分为基础版(B)、标准版(S)、高级版(P)。每个版本中如有多个型号,则数字越大计算能力越强。

  • 资源规格
    规格卡片上有该规格相应的定价、所包含的资源量、所在云的标识、以及相对数据和模型是否跨云的标识。
    资源规格的选择需校验您空间、个人的剩余配额等资源是否足够,不够但仍提交了任务,则任务会进入排队等待足够的资源释放,才能被调度和运行。

Tips:

  1. 尽量选择无 跨云 标识的资源规格,这样任务运行就不涉及跨云
  2. 数据/模型上有与资源规格同色的云标识,则无需同步。因此,如果必须跨云:
    • 数据集偏大,则尽量选择与数据集有同色云标识的规格。
    • 模型偏大,则尽量选择与模型有同色云标识的规格。
      开发环境的数据模型同步标识在 项目-数据 中查看,训练任务的在本页数据/模型挂载处查看。

# 启动命令说明

为方便您能在启动命令中更好的安排模型训练,平台提供了有关于角色、数据集、代码、实例等相关的环境变量。 可单击 查看环境变量 查看还有哪些环境变量,并参考 环境变量说明 了解其含义和具体使用方式。

create_single_job_command

启动命令示例

#存储路径使用环境变量的启动命令
python3 $GEMINI_RUN/train_images.py  --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir $GEMINI_DATA_IN1/DogsvsCats --train_dir $GEMINI_DATA_OUT
#存储路径未使用环境变量的启动命令
python3 /gemini/code/train_images.py  --mode train --model mobileNet --num_epochs 1 --batch_size 8 --data_dir /gemini/data-1/DogsvsCats --train_dir /gemini/output