ReasonFlux 是一个通过扩展思维模板进行分层大型语言模型(LLM)推理的新框架,旨在显著提升LLM在复杂数学推理任务中的性能。它通过构建结构化模板库和分层强化学习,优化推理搜索空间,表现出色。研究表明,它在MATH和AIME等基准测试中达到顶尖水平,例如MATH基准测试准确率达91.2%,AIME问题解决率达56.7%,分别超越o1-preview 6.7%和27%。