MM-EUREKA是一个探索视觉‘顿悟时刻’的多模态强化学习项目,首次将基于规则的强化学习应用于多模态推理,实现文本和视觉信息的高效融合。该项目无需监督微调,通过规则化训练显著提升模型推理能力,并开源完整训练流程,包括代码、模型和数据,助力研究者快速上手。
LMM-R1 是一个为多模态任务打造的高性能强化学习训练框架,旨在扩展 OpenRLHF 框架,支持 LMM(Large Multimodal Models)强化学习(RL)训练,以复现 DeepSeek-R1 在多模态任务上的表现。该框架集成了多种优化技术,显著提升了训练速度和模型生成效率,并支持大规模模型的训练和扩展。