所有AI工具AI开发框架AI开源项目AI编程工具

transformer-tricks开源项目 – 优化Transformer显存使用

该项目实现了论文 '在不损失准确性的情况下将上下文内存减半 — K-cache is all you need for MHA' 中的优化方法,通过数学方法完全消除了KV-Cache中的V-Cache,使用K-Cache通过计...

标签:

AI交流(进群备注:transformer-tricks)

该项目实现了论文 ‘在不损失准确性的情况下将上下文内存减半 — K-cache is all you need for MHA’ 中的优化方法,通过数学方法完全消除了KV-Cache中的V-Cache,使用K-Cache通过计算来恢复V-Cache,从而减少显存使用。

transformer-tricks的特点:

  • 1. 完全消除KV-Cache中的V-Cache
  • 2. 使用K-Cache通过计算恢复V-Cache
  • 3. 减少显存使用
  • 4. 支持Flash Attention
  • 5. 支持各种量化方法

transformer-tricks的功能:

  • 1. 优化Transformer模型的显存使用
  • 2. 在不损失准确性的情况下减少上下文内存
  • 3. 支持Flash Attention的集成
  • 4. 支持量化方法的集成

相关导航

暂无评论

暂无评论...