Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

BOLT(Bootstrap Long Chain-of-Thought)是一个三阶段框架,旨在通过自举方法增强大型语言模型(LLMs)的长链思考(LongCoT)能力,无需依赖知识蒸馏或昂贵的人工标注。该框架允许LLMs分析问题、制定计划、反思并回溯,以解决复杂任务。BOLT在多样化基准测试中表现出通用性和鲁棒性,适用于信息搜索、创意写作、编码、规划和数学问题等领域。
BOLT的特点:
- 1. 数据自举:使用情境学习(ICL)和短链思考(ShortCoT)LLM生成LongCoT数据。
- 2. 监督微调:通过LongCoT数据进行监督式微调(SFT)。
- 3. 在线训练:使用直接偏好优化(DPO)进一步完善LongCoT技能。
- 4. 高效性:仅需10个情境学习示例即可启动。
- 5. 通用性:适用于多种模型规模(7B、8B、70B)。
- 6. 低成本:无需依赖知识蒸馏或大量人工标注。
BOLT的功能:
- 1. LongCoT数据自举:收集高质量查询集,使用ICL提示ShortCoT模型生成LongCoT响应,并通过启发式和结果奖励模型过滤响应。
- 2. LongCoT监督微调:使用自举数据集通过标准SFT技术训练LLM。
- 3. LongCoT在线训练:使用奖励模型和DPO通过在线探索迭代改进模型的推理能力。
- 4. 处理复杂任务:如数学问题、编码、逻辑谜题等高难度领域。
- 5. 信息搜索与创意写作:增强LLMs在信息检索和创造性任务中的表现。
相关导航

DPO(Direct Preference Optimization,直接偏好优化)是一种离线优化方法,直接利用偏好数据训练策略,无需显式奖励模型。该项目是基于论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》的参考实现,支持因果 HuggingFace 模型和自定义数据集,提供了一种无需显式奖励模型的离线优化方法。特别适合语言模型对齐任务,研究表明其在控制生成情感、摘要质量和单轮对话响应上表现不亚于或优于现有方法。

该项目研究揭示了o1类大型语言模型(LLMs)在复杂推理任务中存在的‘欠思考’现象,即模型倾向于频繁切换不同推理思路而未能深入探索有前景的路径。研究通过三个挑战性测试集(MATH500、GPQA Diamond和AIME)和两个代表性开源o1类模型(QwQ-32B-Preview和DeepSeek-R1-671B)的实验,系统分析了这一问题。研究发现错误回答比正确回答使用更多令牌且思路切换频率更高,超过70%的错误回答包含至少一个正确思路。为量化欠思考,研究引入了ξ_UT指标,并提出‘思路切换惩罚(TIP)’解码策略,通过阻止过早的思路转换来提升模型在挑战性数据集上的准确率。实验结果显示TIP策略显著提高了模型性能,且无需微调模型。