离线训练
更新时间:
本节为您介绍离线训练的常见问题。
# Q:训练任务时报错“conda:command not found”?
训练任务如需使用 conda 工具,您需确保训练所用镜像中已包含该工具,且 启动命令 最前面需加入类似如下命令激活 trans 环境并进入,若镜像中仅安装了 conda 工具还未创建虚拟环境,您需先创建环境。
cd /root/miniconda/bin
source activate trans
conda activate trans
上述 /root/miniconda/bin
路径为 conda 工具的安装目录,trans
为您曾创建的虚拟环境名,您需根据实际情况替换。
# Q:离线任务已执行一段时间,但日志仍为空,什么原因?
手动选择日志的时间范围,看是否正常显示。
# Q:在开发环境可执行 source /root/.bashrc
,但是在离线训练时就会报错 .bashrc: line 6: PS1: unbound variable
,为什么?
脚本前加一行 set +o nounset
。
# Q:多卡任务共享内存不足报错“ERROR: Unexpected bus error encountered in worker. This might be caused by insufficient shared memory (shm).”
建议关闭 NCCL 的 SHM 功能,即在启动命令中设置 NCCL_SHM_DISABLE=1、并调小 batch_size。
# Q:内存不足:torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with signal SIGKILL
调整任务的资源规格,换个内存大一点的规格。