手动扩缩容

更新时间:

推理服务支持手动扩缩容,即手动修改推理服务中的目标副本数量,在保证推理服务能够稳定运行的同时合理利用资源。

扩缩容(副本数的更改)不改变推理服务的启停状态。

# 副本数

在推理服务中,副本数指模型实例的数量,简单来说,就是同时运行相同模型和实例规格的多个相同的拷贝。例如副本数为3,就意味着会有3个完全一样的模型实例同时工作。

扩缩容不支持副本数设置为0。

创建多个副本数

  • 提高性能和吞吐量。在面对高并发的推理请求时,单个模型实例可能会造成性能瓶颈。通过增加副本数,多个模型实例可以同时处理不同的请求,显著提高系统的吞吐量,减少每个请求的等待时间。
  • 增强系统的可靠性和容错性。当一个模型副本因不可控因素出现故障时,其他副本仍然可以继续工作,从而保证整个服务不会中断。
  • 每个副本独立地对分配到的请求进行推理处理。这些副本之间相互独立工作,共同完成大量的推理任务。

副本数的设置需要根据实际的业务需求、资源、性能等因素综合考虑。如果副本数设置过少,调用请求的等待时长可能较为漫长,如果副本数设置过多,也会造成资源的浪费,因此,支持手动扩缩容和定时扩缩容可以较为灵活设置目标副本数量,很好地平衡这一问题。

# 手动扩缩容入口

1.在 推理服务 页面内点击右侧边栏的 配置inferenceConfig 2.点击 配置 下目标副本数右边的 扩缩容 按钮,即可在弹窗内进行副本数的更改。 configScale 3.点击 确定 后,立即扩缩容。 scaleWindows