SPHERE 是一个自进化数据生成框架,旨在通过迭代生成、纠正和多样化推理链来提升小型语言模型(SLM)在数学推理方面的能力。该框架采用三阶段过程:自我生成、自我纠正和多样性诱导,并结合剪枝蒙特卡洛树搜索(MCTS)和直接偏好优化(DPO)技术,显著提高了 SLM 在多个数学推理基准测试中的表现,甚至在某些方面可与大型语言模型媲美。