BOLT论文 – 增强LLM长链思考能力的框架

BOLT（Bootstrap Long Chain-of-Thought）是一个三阶段框架，旨在通过自举方法增强大型语言模型（LLMs）的长链思考（LongCoT）能力，无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯，以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性，适用于信息搜索、创意写作、编码、规划和数学问题等领域。

BOLT的特点:

1. 数据自举：使用情境学习（ICL）和短链思考（ShortCoT）LLM生成LongCoT数据。
2. 监督微调：通过LongCoT数据进行监督式微调（SFT）。
3. 在线训练：使用直接偏好优化（DPO）进一步完善LongCoT技能。
4. 高效性：仅需10个情境学习示例即可启动。
5. 通用性：适用于多种模型规模（7B、8B、70B）。
6. 低成本：无需依赖知识蒸馏或大量人工标注。

BOLT的功能:

1. LongCoT数据自举：收集高质量查询集，使用ICL提示ShortCoT模型生成LongCoT响应，并通过启发式和结果奖励模型过滤响应。
2. LongCoT监督微调：使用自举数据集通过标准SFT技术训练LLM。
3. LongCoT在线训练：使用奖励模型和DPO通过在线探索迭代改进模型的推理能力。
4. 处理复杂任务：如数学问题、编码、逻辑谜题等高难度领域。
5. 信息搜索与创意写作：增强LLMs在信息检索和创造性任务中的表现。

相关导航

所有路径通向似然：强化学习在微调中的价值论文 – RLHF在微调中的优越性研究

该项目探讨了强化学习（RL）在大型语言模型微调中的价值，特别关注基于人类反馈的强化学习（RLHF）为何通常优于离线偏好微调方法。论文提出了“生成-验证差距”假说，解释RLHF通过学习一个相对简单的奖励模型，并将策略搜索空间限制在对该奖励模型最优的策略子集，从而实现更好的性能。项目包括理论分析和实验验证，并提供了贝叶斯和频率学方法的替代方案。

DPO: Direct Preference Optimization官网 – 直接偏好优化语言模型

DPO（Direct Preference Optimization，直接偏好优化）是一种离线优化方法，直接利用偏好数据训练策略，无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现，支持因果 HuggingFace 模型和自定义数据集，提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务，研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。

Predibase RFT官网 – 首个端到端强化微调平台

Predibase RFT 是由 Predibase 开发的强化微调平台，专注于通过强化学习优化大型语言模型（LLMs）。与传统监督式微调不同，RFT 不需要大量标注数据，而是通过奖励函数和自定义函数实现持续的强化学习。用户可以通过浏览器设置微调目标并上传数据，简化大型模型微调流程。平台支持课程学习、多 LoRA 框架和流式微批处理技术，提升训练和推理效率。此外，RFT 提供高性能无服务器部署解决方案，方便用户快速将训练好的模型部署到生产环境中。

rlhf-summary-notes开源项目 – 汇总RLHF算法资料库

汇总人工反馈强化学习（RLHF）算法的资料库，旨在整理RLHF相关论文和博客，帮助理解如何通过人工反馈优化大型语言模型

DeepSeek R1开源项目 – 从零构建高效推理模型

DeepSeek R1 是一个从零开始构建的高效推理模型项目。它使用 Qwen 作为基础模型，通过 GRPO 算法进行初步训练，并结合 Supervised Fine-Tuning (SFT) 和改进的强化学习方法，显著提升了模型的推理能力和语言一致性。项目提供了全流程的代码实现、详细的训练过程描述和手绘流程图，使得即使是初学者也能轻松上手。

open-instruct开源项目 – 开源指令微调语言模型

open-instruct 是一个开源项目，专注于指令微调和后训练大型语言模型。它提供了最新的技术和指令数据集，支持直接偏好优化（DPO）和可验证奖励强化学习（RLVR），并在各种基准上评估模型性能。该项目为研究人员和开发者提供了一个平台，用于探索和改进指令微调技术。

Q-Filters开源 – 无需训练的KV缓存压缩方法

Q-Filters 是一种无需训练的 KV 缓存压缩方法，适用于大型语言模型。它利用查询和键向量的几何特性，通过上下文无关的简单投影高效压缩 KV 缓存，无需额外训练。该方法与 FlashAttention 兼容，在长上下文任务中表现出色，实验显示在高压缩比下仍能保持良好性能，例如在针挑草堆任务中达到 99% 准确率（压缩比 32 倍），并在文本生成中比 Streaming-LLM 减少高达 65% 的生成困惑度下降。

对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。

ULLME开源项目 – 统一框架，优化语言模型

ULLME是一个统一的框架，旨在通过生成增强学习优化大型语言模型的嵌入，支持双向注意力机制以及多种微调策略，帮助提升模型的性能和效果。

OpenSparseLLMs/Linearization开源项目 – 提升LLM计算效率的创新项目

OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目，旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架，实现了LLMs的高效线性化，并提供了完整的训练与评估流程，助力模型优化。

ScratchLLMStepByStep开源项目 – 从零开始编写大语言模型的教程

从零开始编写并训练大语言模型的教程，旨在为对语言模型和深度学习感兴趣的开发者提供系统的学习资源。

mcts-llm开源项目 – 提升大型语言模型性能的轻量级项目

mcts-llm是一个集成了蒙特卡洛树搜索（MCTS）和提示工程技术的轻量级项目，旨在提高大型语言模型（LLMs）的性能。该项目通过结合MCTS算法与大型语言模型，优化提示工程，来提升模型的响应质量。其轻量级的设计使得该项目易于集成和使用，并且支持多种语言模型，适用于各种自然语言处理任务。

Lamini-Memory-Tuning开源项目 – 减少语言模型幻觉的创新技术

Lamini-Memory-Tuning是一项针对大型语言模型幻觉抑制的创新研究。通过重新思考泛化问题，该项目提出了基于记忆专家混合体的动态事实存储与检索机制，有效减少模型在处理大规模互联网数据时的幻觉现象。这一技术不仅提高了模型的准确性，还增强了其在复杂查询和对话系统中的表现。

思绪四散：关于o1类LLMs的欠思考现象论文 – 揭示LLMs推理缺陷并提出改进策略

该项目研究揭示了o1类大型语言模型（LLMs）在复杂推理任务中存在的‘欠思考’现象，即模型倾向于频繁切换不同推理思路而未能深入探索有前景的路径。研究通过三个挑战性测试集（MATH500、GPQA Diamond和AIME）和两个代表性开源o1类模型（QwQ-32B-Preview和DeepSeek-R1-671B）的实验，系统分析了这一问题。研究发现错误回答比正确回答使用更多令牌且思路切换频率更高，超过70%的错误回答包含至少一个正确思路。为量化欠思考，研究引入了ξ_UT指标，并提出‘思路切换惩罚（TIP）’解码策略，通过阻止过早的思路转换来提升模型在挑战性数据集上的准确率。实验结果显示TIP策略显著提高了模型性能，且无需微调模型。

Prompt Engineering Toolkit开源项目 – 优化大型语言模型提示的工具

辅助用户测试和优化大型语言模型(LLM)的提示工具，支持多模型测试、模板保存、动态生成提示、模型配置管理及并排比较输出结果，适用于开发者、研究人员和内容创作者。