Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

该项目研究比较了监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现,重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints(基于文本的算术推理卡片游戏)和V-IRL(视觉导航环境)来评估模型在文本和视觉任务中的泛化能力。结果显示,RL在规则学习和视觉任务中表现出更强的泛化能力,而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本,支持文本和视觉任务的泛化测试。
SFT 记忆,RL 泛化的特点:
- 1. 引入GeneralPoints,评估文本任务中的泛化能力
- 2. 使用V-IRL,测试视觉任务的泛化能力
- 3. 比较SFT和RL在泛化和记忆方面的表现
- 4. 发现RL在文本和视觉领域均优于SFT的泛化能力
- 5. RL显著提升了模型的视觉识别能力
SFT 记忆,RL 泛化的功能:
- 1. 安装环境:需H800服务器,Python 3.13.0,torch 2.5.1+cu124
- 2. 下载初始检查点和SFT数据:从Hugging Face下载
- 3. 运行SFT训练:使用Hugging Face数据集
- 4. 运行RL训练:使用Llama-3.2-Vision-Instruct模型,需8个80GB GPU
- 5. 模型评估:运行gp_evaluation、virl_evaluation和recog_evaluation脚本
相关导航
暂无评论...