OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目,旨在通过强化学习(RL)优化大型语言模型(LLM)代理的推理和决策能力。项目支持多种推理模型(如Deepseek-R1、QwQ-32B)和训练框架(SFT/PPO/DPO),提供包含50,793条轨迹的多领域数据集(操作系统、电商等),并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果,鼓励社区贡献。