拓扑不是画图好看,而是决定你把缓存放在哪里、谁来管理、请求如何路由,以及跨设备复制到底贵不贵。
单机单卡 / 单机多卡最小闭环
Client
|
Router / API
|
Scheduler
|
+-------------------------------+
| Req Table + Prefix Index |
| Block Allocator + Eviction |
| KV Blocks in GPU HBM |
| Attention Kernels |
+-------------------------------+
分层缓存拓扑
+---------------------+
| Prefix Index |
| Global Metadata |
+----------+----------+
|
+----------------+----------------+
| |
+------+-------+ +-------+------+
| GPU HBM hot | <----------> | CPU DRAM warm|
| low latency | | bigger pool |
+------+-------+ +-------+------+
| |
+----------------+----------------+
|
+------+------+
| NVMe / cold |
| spill tier |
+-------------+
分离式 serving 拓扑(Prefill / Decode / KV 服务拆开)
Client -> Router
|
+--> Prefill Cluster ----+
| |
+--> Decode Cluster <----+---- KV Transfer / Metadata Service
关键点:
- Prefill 负责高算力吞吐
- Decode 负责低延迟续写
- KV 必须可迁移、可定位、可校验
| 拓扑 |
优点 |
代价 |
适用场景 |
| 单机本地 KV |
最简单、最稳、延迟低 |
容量和弹性受限 |
中小流量、单模型服务 |
| 多卡共享元数据 + 本地 HBM |
吞吐高、可扩展 |
跨卡同步和调度更复杂 |
高吞吐单节点 |
| GPU + CPU 分层 |
容量更大、热冷分离 |
promotion / demotion 策略难 |
长上下文、冷热差异明显 |
| PD 分离 / 跨机 KV |
资源利用率高、弹性强 |
网络和一致性成本高 |
大规模生产集群 |