设置路由模式

更新时间：

推理服务端口有两种路由模式：会话保持、轮询模式。用户可根据应用场景设置相应的路由模式。创建推理服务时，默认为会话保持。更新推理服务时支持修改路由模式，服务处于任何状态即使运行中，也允许修改。

# 路由模式对比

对比维度	会话保持 (Session Affinity)	轮询模式 (Round-Robin)
优势	1.确保上下文连续。2.提高缓存命中率。3.减少重复计算。	1.请求均匀分发。2.支持高并发扩展。3. 更易结合分布式缓存。
核心适用场景	有状态推理（LLM 多轮对话、流式推理）、本地缓存依赖	无状态推理（图像分类、单次 NLP 任务）、分布式缓存场景
Latency	低 (本地缓存复用)	高 (分布式缓存网络开销) 或低 (无状态时)
负载均衡效果	差 (易过载)	好 (请求均匀时)
可用性	低 (实例故障影响会话)	高 (实例故障影响单个请求)
弹性扩展	差 (新增实例仅接新会话)	好 (新增实例立即分担流量)
架构复杂度	低 (无需分布式缓存)	高 (需维护分布式缓存一致性)
典型推理服务示例	vLLM 本地 KV 缓存的 LLM 对话、实时视频流式推理	ResNet 图像分类、BERT 文本分类、分布式 KV 缓存的 LLM
风险/限制	1.单实例可能过载。2.扩缩容时会话迁移复杂。3.宕机时存在会话丢失风险。	1.无法保持上下文连续性。2.依赖外部分布式缓存时，增加延迟。
实践建议	1.设置合理会话 TTL：通常 10–30 分钟，避免实例长期占用。2.配置最大会话数阈值：防止单实例过载，例如 GPU 单卡可承载 500 会话。3.监控指标：在应用层统计会话数、单实例负载、缓存命中率、请求延迟等指标。4.扩缩容：根据 CPU/GPU 利用率或活跃会话数动态调整副本数量，并在调整过程中通过应用层 Draining 平滑下线旧副本，确保会话连续性。5.故障回退（Fallback）：副本宕机时，将会话迁移至其他副本或重建上下文。	1.均衡分发请求：默认轮询，在应用层可结合最少连接策略优化延迟。2.配合分布式缓存：上下文和缓存存储在外部，避免依赖本地副本。3.监控指标：在应用层记录整体 QPS、平均响应时间等指标。4.扩缩容：根据监控数据动态调整副本数量，确保资源合理利用。调整副本数量时，无需考虑会话绑定，可快速生效。5.高并发优化：根据延迟和负载调整副本权重或连接策略。

# 操作步骤

1.点击 推理服务 悬浮栏，进入推理服务页面。

2.下拉页面，在开放端口处选择 路由模式。

← 推理服务的调用数据概述 →