SpeCache论文 – LLM长文本生成的显存优化方案
SpeCache是一个针对大型语言模型(LLMs)长文本生成场景的推测性关键值缓存项目,通过将KV缓存卸载到CPU内存并动态预取关键数据,显著降低GPU显存占用。其核心技术包括:1)利用CPU内存的大容量特性存储完整KV缓存;2)基于VRAM中的低位缓存副本动态测量重要性;3)推测性预测下一令牌的KV对实现预取并行化。在LongBench和Needle-in-a-Haystack基准测试中,无需模型重训练即可实现10倍压缩比,同时保持生成质量。