Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法
TOPR 是一种新型强化学习算法,专为微调大型语言模型(LLM)设计,特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习,无需依赖 KL 正则化,支持完全离线应用,统一处理正负示例,并受益于 Monte Carlo 方法的简单性。实证研究表明,在推理任务的 off-policy 微调中,TOPR 表现优于朴素 REINFORCE、PPO 和 DPO,特别是在 GSM8K 和 MATH 基准测试中表现出色。