Q-Filters开源 – 无需训练的KV缓存压缩方法

Q-Filters 是一种无需训练的 KV 缓存压缩方法，适用于大型语言模型。它利用查询和键向量的几何特性，通过上下文无关的简单投影高效压缩 KV 缓存，无需额外训练。该方法与 FlashAttention 兼容，在长上下文任务中表现出色，实验显示在高压缩比下仍能保持良好性能，例如在针挑草堆任务中达到 99% 准确率（压缩比 32 倍），并在文本生成中比 Streaming-LLM 减少高达 65% 的生成困惑度下降。

Q-Filters的特点:

1. 无需训练的压缩方法
2. 基于查询-键几何的上下文无关投影
3. 与 FlashAttention 兼容
4. 高压缩比下性能损失小
5. 在针挑草堆任务中达到 99% 准确率（压缩比 32 倍）
6. 相较 Streaming-LLM，在文本生成中减少高达 65% 的生成困惑度下降

Q-Filters的功能:

1. 压缩 KV 缓存以降低内存占用和推理延迟
2. 在长上下文任务中保持准确性
3. 提供脚本用于生成文本或为不同模型计算新过滤器

相关导航

Lamini-Memory-Tuning开源项目 – 减少语言模型幻觉的创新技术

Lamini-Memory-Tuning是一项针对大型语言模型幻觉抑制的创新研究。通过重新思考泛化问题，该项目提出了基于记忆专家混合体的动态事实存储与检索机制，有效减少模型在处理大规模互联网数据时的幻觉现象。这一技术不仅提高了模型的准确性，还增强了其在复杂查询和对话系统中的表现。

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法，旨在通过量化技术提高模型的计算效率和存储效率，同时保持模型性能。该项目适用于各种大型语言模型的优化，能够显著减少模型的内存占用和计算资源需求。

Ctrl-G开源项目 – 适应性逻辑控制大型语言模型

Ctrl-G是一个为大型语言模型提供适应性逻辑控制的项目，旨在优化模型的输出，使其更符合用户的交互需求。该项目通过引入逻辑控制机制，提升模型的响应准确性和合理性。

Diverse Preference Optimization (DivPO)论文 – 提升LLM生成内容多样性的优化方法

Diverse Preference Optimization (DivPO) 是一种在线优化方法，旨在解决大型语言模型（LLM）在后训练阶段普遍存在的多样性坍缩问题。通过在偏好优化过程中引入多样性考量，DivPO 能够生成更多样化的回复，同时保持生成内容的质量。该项目由 Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov 在 2025 年发表，特别适用于需要多样性的创意生成任务，如故事生成和人物属性生成。

Prompt Engineering Toolkit开源项目 – 优化大型语言模型提示的工具

辅助用户测试和优化大型语言模型(LLM)的提示工具，支持多模型测试、模板保存、动态生成提示、模型配置管理及并排比较输出结果，适用于开发者、研究人员和内容创作者。

Prompt-to-Leaderboard (P2L)开源项目 – AI模型竞技场与路由器

P2L是一个基于AI模型的竞技场系统，通过用户输入的提示生成专属排行榜，并自动选择表现最强的模型进行回复。它结合了AI路由器功能，能够根据问题将请求转发给最适合的大模型，从而提高回答的准确性和效率。P2L还支持查看模型在特定领域的表现和不擅长的领域，帮助用户优化模型性能。

所有路径通向似然：强化学习在微调中的价值论文 – RLHF在微调中的优越性研究

该项目探讨了强化学习（RL）在大型语言模型微调中的价值，特别关注基于人类反馈的强化学习（RLHF）为何通常优于离线偏好微调方法。论文提出了“生成-验证差距”假说，解释RLHF通过学习一个相对简单的奖励模型，并将策略搜索空间限制在对该奖励模型最优的策略子集，从而实现更好的性能。项目包括理论分析和实验验证，并提供了贝叶斯和频率学方法的替代方案。

TURN开源 – 自动化温度优化方法

TURN 是一种用于优化大型语言模型（LLMs）温度参数的方法，旨在提高数学问题求解和代码生成等任务的性能。它通过分析生成文本的熵拐点来自适应地选择最佳温度，无需特定验证数据，高效且有效。TURN 在多样本推理场景中表现出色，特别是在数学问题（如 MATH 数据集）和代码生成任务（如 MBPP 数据集）上。

ULLME开源项目 – 统一框架，优化语言模型

ULLME是一个统一的框架，旨在通过生成增强学习优化大型语言模型的嵌入，支持双向注意力机制以及多种微调策略，帮助提升模型的性能和效果。

mcts-llm开源项目 – 提升大型语言模型性能的轻量级项目

mcts-llm是一个集成了蒙特卡洛树搜索（MCTS）和提示工程技术的轻量级项目，旨在提高大型语言模型（LLMs）的性能。该项目通过结合MCTS算法与大型语言模型，优化提示工程，来提升模型的响应质量。其轻量级的设计使得该项目易于集成和使用，并且支持多种语言模型，适用于各种自然语言处理任务。

WaveCoder-增强指令调优与数据生成

WaveCoder是一个广泛且多才的项目，专注于增强指令调优和精炼数据生成，采用经过精心调优的代码语言模型和生成器-判别器框架，从开源代码中生成高质量、非重复的指令数据，显著提升大型语言模型在与代码相关任务中的表现和泛化能力。

OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

rlhf-summary-notes开源项目 – 汇总RLHF算法资料库

汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

OpenSparseLLMs/Linearization开源项目 – 提升LLM计算效率的创新项目

OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目，旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架，实现了LLMs的高效线性化，并提供了完整的训练与评估流程，助力模型优化。