2025年最强大的推测性关键值缓存AI工具推荐

SpeCache论文 – LLM长文本生成的显存优化方案

SpeCache是一个针对大型语言模型（LLMs）长文本生成场景的推测性关键值缓存项目，通过将KV缓存卸载到CPU内存并动态预取关键数据，显著降低GPU显存占用。其核心技术包括：1）利用CPU内存的大容量特性存储完整KV缓存；2）基于VRAM中的低位缓存副本动态测量重要性；3）推测性预测下一令牌的KV对实现预取并行化。在LongBench和Needle-in-a-Haystack基准测试中，无需模型重训练即可实现10倍压缩比，同时保持生成质量。