资源跨云

更新时间:

任务提交时,可能遇到 “跨云” 提示,继续提交则该任务启动会较慢,参考本节了解多云、跨云同步,从而避免任务跨云或降低跨云同步的时长。

# 什么是多云

多云,即多可用区(AZ,Availability Zone),一个 (AZ)是一个或多个物理数据中心的集合,独立供电且有完整的数据资源, 内逻辑上将计算、网络、存储等资源划分成多个集群。多个 之间通过高速光纤相连,以满足用户跨云构建高可用系统的需求。

图 1 多云

# 多云同步

指各个云之间的数据副本同步。平台数据(指数据集、结果集、模型等)在各个云上都可能存在一个副本,后台会定时对各个副本做同步,以保证各个副本一致。这样,当用户所发起的任务需要使用这些数据时,便可就近取用,提高效率。
除了上述定时副本同步,用户发起任务时所需的数据如果不在当前云上,也会触发同步将其他云上数据同步过来,然后再运行任务。

# 为什么会跨云

运行任务所需的资源(包括算力、数据、模型、代码)在同一云上不完全具备时,则会触发跨云同步,系统会先跨云将资源同步至同一云(规格选择所在云)上,再运行该任务。
如下图所示,代码、数据集、模型都在 az2 上,而所选实例规格只有 az1、az3 上有,那么提交任务时,系统会根据调度策略,在 az2、az3 中选择一个同步成本最低的云,将本次任务所需的代码、数据集、模型从 az1 同步至该云,然后在该云上运行任务。

# 跨云同步时长

平台提供了优秀的调度策略来尽可能降低同步的时间开销,但同步时长仍与数据集、模型的大小强相关。同步时长虽不做计费但影响您任务启动速度,建议您根据数据集、模型在各云上的同步信息,选择合适的资源规格,减少跨云数据量。

Tips:

  1. 尽量选择无 跨云 标识的资源规格,这样任务运行就不涉及跨云。
  2. 数据/模型上有与资源规格同色的云标识,则无需同步。因此,如果必须跨云:
    • 数据集偏大,则尽量选择与数据集有同色云标识的规格。
    • 模型偏大,则尽量选择与模型有同色云标识的规格。