该项目研究比较了监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现,重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints(基于文本的算术推理卡片游戏)和V-IRL(视觉导航环境)来评估模型在文本和视觉任务中的泛化能力。结果显示,RL在规则学习和视觉任务中表现出更强的泛化能力,而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本,支持文本和视觉任务的泛化测试。