Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

ReasonFlux 是一个通过扩展思维模板进行分层大型语言模型(LLM)推理的新框架,旨在显著提升LLM在复杂数学推理任务中的性能。它通过构建结构化模板库和分层强化学习,优化推理搜索空间,表现出色。研究表明,它在MATH和AIME等基准测试中达到顶尖水平,例如MATH基准测试准确率达91.2%,AIME问题解决率达56.7%,分别超越o1-preview 6.7%和27%。
ReasonFlux的特点:
- 1. 包含约500个高层次思维模板,适用于类似或相关推理问题
- 2. 使用分层强化学习优化思维模板序列,而非传统的长链推理(CoT)
- 3. 提供不同模型大小:32B、14B和7B,灵活适应不同需求
- 4. 推理时采用自适应扩展系统,动态选择最佳模板
- 5. 高效训练,仅用8个GPU训练ReasonFlux-32B模型
- 6. 支持训练ReasonFlux-F1和ReasonFlux-Zero模型,使用LLaMA-Factory框架
- 7. 提供评估脚本,覆盖AIME、MATH500和GPQA-Diamond等基准测试
- 8. 提供推理代码,支持基于模板的推理,增强问题解决能力
ReasonFlux的功能:
- 1. 通过Conda和pip安装,需执行特定命令如conda create -n ReasonFlux python==3.9
- 2. 提供详细命令用于训练、评估和推理,例如评估AIME24/25时需特定lm-evaluation-harness设置
- 3. 支持ReasonFlux-F1和ReasonFlux-Zero模型的训练,使用LLaMA-Factory框架进行全微调和SFT阶段
- 4. 提供评估脚本,基于修改后的lm-evaluation-harness,支持AIME24/25、MATH500和GPQA-Diamond等任务
- 5. 提供推理代码,支持ReasonFlux-F1和ReasonFlux-Zero,使用vllm和自定义ReasonFlux类
相关导航
暂无评论...