2025年最强大的off-policy学习AI工具推荐

Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法

TOPR 是一种新型强化学习算法，专为微调大型语言模型（LLM）设计，特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习，无需依赖 KL 正则化，支持完全离线应用，统一处理正负示例，并受益于 Monte Carlo 方法的简单性。实证研究表明，在推理任务的 off-policy 微调中，TOPR 表现优于朴素 REINFORCE、PPO 和 DPO，特别是在 GSM8K 和 MATH 基准测试中表现出色。