手动扩缩容

更新时间：

推理服务支持手动扩缩容，即手动修改推理服务中的目标副本数量，在保证推理服务能够稳定运行的同时合理利用资源。

扩缩容（副本数的更改）不改变推理服务的启停状态。

# 副本数

在推理服务中，副本数指模型实例的数量，简单来说，就是同时运行相同模型和实例规格的多个相同的拷贝。例如副本数为3，就意味着会有3个完全一样的模型实例同时工作。

扩缩容不支持副本数设置为0。

创建多个副本数

提高性能和吞吐量。在面对高并发的推理请求时，单个模型实例可能会造成性能瓶颈。通过增加副本数，多个模型实例可以同时处理不同的请求，显著提高系统的吞吐量，减少每个请求的等待时间。
增强系统的可靠性和容错性。当一个模型副本因不可控因素出现故障时，其他副本仍然可以继续工作，从而保证整个服务不会中断。
每个副本独立地对分配到的请求进行推理处理。这些副本之间相互独立工作，共同完成大量的推理任务。

副本数的设置需要根据实际的业务需求、资源、性能等因素综合考虑。如果副本数设置过少，调用请求的等待时长可能较为漫长，如果副本数设置过多，也会造成资源的浪费，因此，支持手动扩缩容和定时扩缩容可以较为灵活设置目标副本数量，很好地平衡这一问题。

1.在 推理服务 页面内点击右侧边栏的配置。 inferenceConfig 2.点击配置下目标副本数右边的 扩缩容 按钮，即可在弹窗内进行副本数的更改。 configScale 3.点击确定后，立即扩缩容。 scaleWindows