1. 智能流量路由(Smart Router)

作为系统的流量入口,Router 不仅充当网关的角色,更是保障服务稳定性与会话连续性的第一道防线。

  • 会话保持(Session Stickiness):
    基于请求内容(Request Content)生成的唯一指纹或 Session ID,Router 会精确记录每个会话与后端节点的映射关系。确保同一会话的后续请求被路由至同一固定节点,从而最大化利用本地缓存(KV Cache),避免重复计算带来的资源浪费。

  • 动态负载均衡与热点防御:
    为防止单节点因流量突增而过载(Hotspot),系统引入了严格的 Server Load Threshold(服务器负载阈值) 机制。当特定节点的负载触及红线时,Router 将智能介入,进行流量整形或请求重路由,确保集群整体的健康度与吞吐量。

2. KV Cache Offload

显存容量是制约 LLM 推理吞吐量的主要瓶颈。为了突破单卡显存限制,L1-L4 多级流水线式 的 KV Cache 存储架构,按访问速度分层管理:

  • L1 (GPU HBM): 存放最活跃的 Hot KV Cache,确保核心计算微秒级响应。
  • L2 (CPU Memory): 利用 Host 内存作为次级缓冲区,通过 PCIe 快速交换数据。
  • L3 (Remote GPU via RDMA): 当本地资源耗尽时,通过 RDMA(远程直接内存访问)技术极速“借用”其他空闲节点的显存,实现显存池化。
  • L4 (NVMe SSD): 作为冷数据的最终落脚点,提供海量存储兜底。

技术推荐 Pegaflow:
针对单节点多 GPU 场景,Pegaflow 提供了一套高性能的卸载方案,能有效提升推理引擎的显存利用效率。

延伸阅读: 可参考 Dynamo KVBM 和 llm-d-kv-cache 等相关技术实现。

3. P/D 分离架构(Prefill/Decode Disaggregation)

在高度互动的场景中(如 AI 伴侣、实时对话 App),用户对首字延迟(TTFT)和生成流畅度(TPOT)极为敏感。传统的混合部署模式下,高负载的 Prefill(预填充)阶段往往会抢占计算资源,导致 Decode(解码)阶段卡顿。

我们采用了 Prefill 与 Decode 分离 的解耦架构:

  • 核心优势: 彻底隔离计算密集型的 Prefill 阶段与访存密集型的 Decode 阶段。无论新请求如何涌入,Decode 节点始终拥有独立的计算资源,保证输出如丝般顺滑,不被中断。

  • 关键技术依赖:

    • 可靠的 RDMA 网络: 该架构要求 Prefill 节点计算完的 KV 状态能以极低延迟传输至 Decode 节点。
    • 增量传输机制: 仅需传输新增 Token 对应的 KV 数据,而非全量搬运,大幅降低网络带宽压力。
    • Decode 本地缓存: 接收端节点维护热数据缓存,进一步加速生成。
  • 传输后端(Transfer Backend)选型:

    • NIXL
    • Mooncake (KVCache 分离架构的典型代表)

推理引擎