所有AI工具AI学习网站AI开发框架AI开源项目

SFT 记忆,RL 泛化开源 – 比较SFT与RL的泛化能力

该项目研究比较了监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现,重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints(基于文本的算术推理卡片游戏)和V-IRL...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

该项目研究比较了监督微调(SFT)和强化学习(RL)在基础模型后训练中的表现,重点探讨它们在泛化和记忆方面的差异。研究使用GeneralPoints(基于文本的算术推理卡片游戏)和V-IRL(视觉导航环境)来评估模型在文本和视觉任务中的泛化能力。结果显示,RL在规则学习和视觉任务中表现出更强的泛化能力,而SFT更倾向于记忆训练数据。项目提供了训练和评估脚本,支持文本和视觉任务的泛化测试。

SFT 记忆,RL 泛化的特点:

  • 1. 引入GeneralPoints,评估文本任务中的泛化能力
  • 2. 使用V-IRL,测试视觉任务的泛化能力
  • 3. 比较SFT和RL在泛化和记忆方面的表现
  • 4. 发现RL在文本和视觉领域均优于SFT的泛化能力
  • 5. RL显著提升了模型的视觉识别能力

SFT 记忆,RL 泛化的功能:

  • 1. 安装环境:需H800服务器,Python 3.13.0,torch 2.5.1+cu124
  • 2. 下载初始检查点和SFT数据:从Hugging Face下载
  • 3. 运行SFT训练:使用Hugging Face数据集
  • 4. 运行RL训练:使用Llama-3.2-Vision-Instruct模型,需8个80GB GPU
  • 5. 模型评估:运行gp_evaluation、virl_evaluation和recog_evaluation脚本

相关导航

暂无评论

暂无评论...