该项目探讨了强化学习(RL)在大型语言模型微调中的价值,特别关注基于人类反馈的强化学习(RLHF)为何通常优于离线偏好微调方法。论文提出了“生成-验证差距”假说,解释RLHF通过学习一个相对简单的奖励模型,并将策略搜索空间限制在对该奖励模型最优的策略子集,从而实现更好的性能。项目包括理论分析和实验验证,并提供了贝叶斯和频率学方法的替代方案。