AI交流(进群备注:LMM-R1)

LMM-R1 是一个为多模态任务打造的高性能强化学习训练框架,旨在扩展 OpenRLHF 框架,支持 LMM(Large Multimodal Models)强化学习(RL)训练,以复现 DeepSeek-R1 在多模态任务上的表现。该框架集成了多种优化技术,显著提升了训练速度和模型生成效率,并支持大规模模型的训练和扩展。
LMM-R1的特点:
- 1. 支持 PPO/REINFORCE++/RLOO 训练,速度提升 4.7 倍
- 2. 集成 vLLM 加速生成,支持 70 亿参数模型
- 3. 提供多节点训练脚本,轻松扩展
LMM-R1的功能:
- 1. 用于多模态任务的强化学习训练
- 2. 复现 DeepSeek-R1 在多模态任务上的表现
- 3. 支持大规模模型的训练和生成加速
相关导航
暂无评论...