离线训练异常

更新时间:

本节为您介绍离线训练提交后,可能遇到的异常及处理建议供您参考。

Q:训练任务报错无/gemini/code/目录?
提交任务时,未挂载代码,任务启动后则不会在训练环境中挂载 /gemini/code 目录。

Q:任务执行慢,什么原因?
是否启动命令中含从国外网络下载数据的指令,平台不支持翻墙访问国外网络,强行访问外国网络下载数据,其下载速度必然会影响任务执行进度,建议您先行下载好数据,并以模型/数据的形式挂载到项目中,供任务使用。

Q:任务执行时报错readonly,什么原因?
离线训练时,仅支持写入 /gemini/output,其他目录均为只读,强行写入则会报错 readonly。

Q:报错“未找到目录或文件”
建议您逐个排查如下信息:

  • 该任务是否挂载了代码。
  • 检查启动命令是否有误。
  • 代码/启动命令中是否存在路径、文件名错误。
  • 检查启动命令、代码中根目录“/”是否有误。

Q:报错类似“No module:ModuleNotFoundError: No module named 'utils.frameworkbase'”
离线训练提交时,所选镜像非配置好的最新镜像。建议您先将配置好的可用于训练的开发环境保存为镜像,然后提交离线训练时选在该镜像。

Q:报错类似“time out”
平台不支持访问国外网络,如果代码或启动命令中有相关指令,可能引起类似报错。

Q:GPU任务失败,任务详情页有异常事件

任务详情页事件截图如下:

img

上述情况通常与GPU故障相关,可能的原因:

  • 对应的计算节点GPU驱动故障,需要联系系统运维管理员排查
  • 对应的计算节点GPU故障(比如消费级卡容易掉卡),需要联系系统运维管理员排查

Q:任务执行一段时间后失败,日志中有killed相关信息

任务日志页截图如下:

img

上述情况通常是因为任务启动时申请的资源(特别是内存)不足,任务执行过程中资源使用超额,导致任务被强行终止。建议克隆任务,调大资源申请(特别是内存)后重试。

Q:任务等待中,任务详情页有异常调度事件

任务详情页事件截图如下:

image-20210518201125658

上述情况属于正常状态,通常发生于集群资源紧张,任务需要排队等待集群资源时。可以根据事件消息判断任务具体在等待哪些集群资源。如果上述情况完全不符合预期,请联系系统运维管理员排查。