离线训练

更新时间:

本节为您介绍离线训练的常见问题。

# Q:训练任务时报错“conda:command not found”?

训练任务如需使用 conda 工具,您需确保训练所用镜像中已包含该工具,且 启动命令 最前面需加入类似如下命令激活 trans 环境并进入,若镜像中仅安装了 conda 工具还未创建虚拟环境,您需先创建环境。

cd /root/miniconda/bin
source activate trans
conda activate trans

上述 /root/miniconda/bin 路径为 conda 工具的安装目录,trans 为您曾创建的虚拟环境名,您需根据实际情况替换。

# Q:离线任务已执行一段时间,但日志仍为空,什么原因?

手动选择日志的时间范围,看是否正常显示。

# Q:在开发环境可执行 source /root/.bashrc,但是在离线训练时就会报错 .bashrc: line 6: PS1: unbound variable,为什么?

脚本前加一行 set +o nounset

# Q:多卡任务共享内存不足报错“ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).”

建议关闭 NCCL 的 SHM 功能,即在启动命令中设置 NCCL_SHM_DISABLE=1、并调小 batch_size。

# Q:内存不足:torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with signal SIGKILL

调整任务的资源规格,换个内存大一点的规格。