SAGE-KV(Self-Attention Guided KV Cache Eviction)是一种用于大语言模型(LLMs)高效推理的方法,特别适用于处理长上下文。它通过自注意力机制指导键值(KV)缓存淘汰,显著提高了内存效率和推理速度,同时保持与完整注意力模型相当的准确性。该方法特别适用于上下文窗口从128K到1M token的LLMs,解决了内存和延迟的瓶颈问题。