RLSP(强化学习通过自对弈)是一个后训练框架,旨在通过强化学习指导大型语言模型(LLM)进行更有效的推理搜索,从而提升其在复杂问题解决中的表现,并涌现出类似人类的复杂推理行为。该框架通过解耦探索奖励和结果正确性奖励,利用强化学习帮助模型进行更有效的推理搜索,使模型在复杂问题解决中表现得更像人类。RLSP包括三个核心步骤:监督微调(SFT)、探索奖励和强化学习训练。在基准测试中,RLSP显著提升了模型在数学和竞赛问题上的表现。