Zijie Tian
13586e689b
docs: add chunked prefill integration plan
分析两个分支的内存布局差异,明确 Block-Based 设计对支持
任意长度推理的重要性。
核心发现:
- tzj/vs_offload 的 max_seq_len 设计导致 GPU 内存随序列长度增长
- tzj/minference 的 block-based 设计使 GPU 内存固定(~1.6 GB)
- 在 24GB RTX 3090 上可支持 4M+ tokens 推理
规划将 tzj/minference 的 chunked prefill 机制移植到 tzj/vs_offload 分支:
- Block-based GPU cache (无 layer 维度)
- Per-layer prefill buffer (完全并行 offload)
- Cross-layer pipeline buffers (double-buffering)
- Chunked prefill 流程和 LSE 在线合并
Sparse Policy 策略:保留架构,现阶段仅实现 FULL 策略
相关文件:
- docs/chunked_prefill_integration_plan.md (新增)
2026-01-18 18:49:19 +08:00
..
2026-01-14 07:02:09 +08:00
2026-01-14 07:02:09 +08:00
2026-01-08 21:19:38 +08:00
2026-01-14 08:39:03 +08:00
2026-01-16 10:38:02 +08:00
2026-01-18 18:49:19 +08:00
2026-01-09 16:10:28 +08:00
2026-01-08 21:19:38 +08:00
2026-01-14 10:08:41 +08:00
2026-01-08 23:22:38 +08:00
2026-01-08 21:19:38 +08:00
2026-01-10 21:14:32 +08:00
2026-01-12 21:08:35 +08:00
2026-01-14 00:51:30 +08:00
2026-01-12 00:16:37 +08:00
2026-01-08 21:19:38 +08:00
2026-01-08 23:42:30 +08:00
2026-01-10 23:33:09 +08:00
2026-01-11 18:48:50 +08:00
2026-01-14 10:08:41 +08:00
2026-01-14 10:16:21 +08:00