手动扩缩容
更新时间:
推理服务支持手动扩缩容,即手动修改推理服务中的目标副本数量,在保证推理服务能够稳定运行的同时合理利用资源。
扩缩容(副本数的更改)不改变推理服务的启停状态。
# 副本数
在推理服务中,副本数指模型实例的数量,简单来说,就是同时运行相同模型和实例规格的多个相同的拷贝。例如副本数为3,就意味着会有3个完全一样的模型实例同时工作。
扩缩容不支持副本数设置为0。
创建多个副本数
- 提高性能和吞吐量。在面对高并发的推理请求时,单个模型实例可能会造成性能瓶颈。通过增加副本数,多个模型实例可以同时处理不同的请求,显著提高系统的吞吐量,减少每个请求的等待时间。
- 增强系统的可靠性和容错性。当一个模型副本因不可控因素出现故障时,其他副本仍然可以继续工作,从而保证整个服务不会中断。
- 每个副本独立地对分配到的请求进行推理处理。这些副本之间相互独立工作,共同完成大量的推理任务。
副本数的设置需要根据实际的业务需求、资源、性能等因素综合考虑。如果副本数设置过少,调用请求的等待时长可能较为漫长,如果副本数设置过多,也会造成资源的浪费,因此,支持手动扩缩容和定时扩缩容可以较为灵活设置目标副本数量,很好地平衡这一问题。
# 手动扩缩容入口
1.在 推理服务 页面内点击右侧边栏的 配置 。 2.点击 配置 下目标副本数右边的 扩缩容 按钮,即可在弹窗内进行副本数的更改。 3.点击 确定 后,立即扩缩容。