所有AI工具AI开发框架AI开源项目AI编程工具

Q-Filters开源 – 无需训练的KV缓存压缩方法

Q-Filters 是一种无需训练的 KV 缓存压缩方法,适用于大型语言模型。它利用查询和键向量的几何特性,通过上下文无关的简单投影高效压缩 KV 缓存,无需额外训练。该方法与 FlashAtt...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

Q-Filters 是一种无需训练的 KV 缓存压缩方法,适用于大型语言模型。它利用查询和键向量的几何特性,通过上下文无关的简单投影高效压缩 KV 缓存,无需额外训练。该方法与 FlashAttention 兼容,在长上下文任务中表现出色,实验显示在高压缩比下仍能保持良好性能,例如在针挑草堆任务中达到 99% 准确率(压缩比 32 倍),并在文本生成中比 Streaming-LLM 减少高达 65% 的生成困惑度下降。

Q-Filters的特点:

  • 1. 无需训练的压缩方法
  • 2. 基于查询-键几何的上下文无关投影
  • 3. 与 FlashAttention 兼容
  • 4. 高压缩比下性能损失小
  • 5. 在针挑草堆任务中达到 99% 准确率(压缩比 32 倍)
  • 6. 相较 Streaming-LLM,在文本生成中减少高达 65% 的生成困惑度下降

Q-Filters的功能:

  • 1. 压缩 KV 缓存以降低内存占用和推理延迟
  • 2. 在长上下文任务中保持准确性
  • 3. 提供脚本用于生成文本或为不同模型计算新过滤器

相关导航

暂无评论

暂无评论...