RLSP(Reinforcement Learning via Self-Play)官网 – 提升大模型推理能力的自弈强化学习框架
RLSP是由MIT、康奈尔大学、华盛顿大学和微软研究院联合开发的框架,旨在通过解耦探索奖励与正确性奖励,显著增强大型语言模型(LLMs)的复杂推理能力。其核心采用三阶段训练流程:监督微调学习基础推理模式,强化学习鼓励多路径探索,验证器确保答案准确性。在MATH 500数据集上使Llama模型得分提升23%,在AIME 2024数学问题上使Qwen2.5-32B-Instruct模型提升10%,能促使模型涌现回溯、多方案验证等人类式推理行为。