概述
更新时间:
开发环境主要用于调试模型。
# 开发环境使用
下图描述平台中使用开发环境的大致流程:
下表介绍调试代码各流程的具体含义:
流程 | 含义 |
---|---|
初始化开发环境 | 指定镜像和计算资源即 CPU、内存、GPU 等构建一个内置了相关工具的操作系统也就是开发环境,若初始化时关联了数据/模型,开发环境启动时将会挂载数据、模型到相应路径下,项目代码则默认挂载。 |
准备开发环境 | 初始化好的开发环境中可能工具不全,您可能还需根据自身研发需要安装部分工具后才能进行代码的调试。 |
对接本地IDE | (可选)如您想使用本地 IDE 工具远程调试代码,可参考本节将本地 IDE 连接到您初始化的开发环境,支持的 IDE 有 PyCharm、VSCode。 |
调试模型 | 可以使用平台默认提供的 JupyterLab 或网页终端调试模型,也可在对接本地 IDE 后,使用本地 IDE 调试代码。 |
# 开发环境
开发环境是平台使用 K8S 技术将您选择的镜像构造成一个 Pod(实例) 形式的操作系统,这个操作系统因镜像原因可能本身就内置了一部分的 AI 开发工具,您也可继续在这个系统中安装工具,然后在这个环境中进行 AI 调试。调试时所需的数据和代码存放如下表所示。
目标 | 存储路径 | 环境变量 | 读写权限 | 是否持久化 |
---|---|---|---|---|
代码 | /gemini/code | $GEMINI_CODE | 可读可写 | 是 |
数据 | 最多可挂载三个数据集,存储分别对应:/gemini/data-1 /gemini/data-2 /gemini/data-3 | 分别对应:$GEMINI_DATA_IN1 $GEMINI_DATA_IN2 $GEMINI_DATA_IN3 | 可读 | 不涉及 |
预训练模型 | 最多可挂载三个数据集,存储分别对应:/gemini/pretrain /gemini/pretrain2 /gemini/pretrain3 | 分别对应:$GEMINI_PRETRAIN $GEMINI_PRETRAIN2 $GEMINI_PRETRAIN3 | 可读 | 不涉及 |
结果 | /gemini/output | $GEMINI_DATA_OUT | 可读可写 | 否 |
- 环境变量:平台为您内置的环境变量,可用来直接访问对应的存储路径。
- 读写权限:指在开发环境中该目录是否可以读写,其中数据和预训练模型时不可写数据的,如您
- 是否持久化:可以持久化则不受开发环境启停的影响,会一直保存在目录中,否则开发环境重启后则数据丢失。因开发环境仅用于调试,结果可以存放在
/gemini/output
目录下用于短期调试,如您需进行大量数据训练并持久化保存训练结果可提交 离线训练。
# 开发环境自动重启
因开发环境是一个容器而并非一个虚拟机,遇到如下情况时会自动重启。
- 内存使用超限,该内存是您创建开发环境时设置的。
- 其他非人为原因触发的重启。
重启则会重置所有非持久化目录,请注意将您的代码保存在持久化路径 /gemini/code/
下,未保存在持久化目录下的数据及应用,建议及时采用 保存环境为镜像 的方法将其持久化。