SPHERE框架是一个自我进化的偏好优化框架,专注于提升小型语言模型在数学推理任务中的能力, 通过动态调整优化策略缩小其与大型模型的性能差距。它采用强化学习等方法优化模型对数学逻辑和计算的理解, 适用于资源受限场景,目前主要应用于学术研究和编程教育领域。