该项目实现了论文 '在不损失准确性的情况下将上下文内存减半 — K-cache is all you need for MHA' 中的优化方法,通过数学方法完全消除了KV-Cache中的V-Cache,使用K-Cache通过计算来恢复V-Cache,从而减少显存使用。