LMM-R1 是一个为多模态任务打造的高性能强化学习训练框架,旨在扩展 OpenRLHF 框架,支持 LMM(Large Multimodal Models)强化学习(RL)训练,以复现 DeepSeek-R1 在多模态任务上的表现。该框架集成了多种优化技术,显著提升了训练速度和模型生成效率,并支持大规模模型的训练和扩展。