Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目,旨在通过强化学习(RL)优化大型语言模型(LLM)代理的推理和决策能力。项目支持多种推理模型(如Deepseek-R1、QwQ-32B)和训练框架(SFT/PPO/DPO),提供包含50,793条轨迹的多领域数据集(操作系统、电商等),并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果,鼓励社区贡献。
OpenManus-RL的特点:
- 1. 支持多种推理模型(Deepseek-R1/QwQ-32B/GPT-O1)
- 2. 提供多样化奖励策略和训练框架(SFT/PPO/DPO/PRM)
- 3. 包含跨6大领域的50,793条轨迹数据集(含防幻觉功能)
- 4. 集成Tree-of-Thoughts/Monte Carlo等高级rollout策略
- 5. 支持ReAct框架与Outcome-based推理格式
- 6. 兼容Veri/TinyZero等RL调优框架
OpenManus-RL的功能:
- 1. 在NQ数据集上训练PPO模型(需Python 3.10环境)
- 2. 通过WebShop/GAIA等基准测试代理性能
- 3. 开发家庭管理或电商领域的智能代理
- 4. 研究者可贡献代码/数据集至开源社区
- 5. 企业用户可定制化RL调优方案
相关导航

Diverse Preference Optimization (DivPO)论文 – 提升LLM生成内容多样性的优化方法
Diverse Preference Optimization (DivPO) 是一种在线优化方法,旨在解决大型语言模型(LLM)在后训练阶段普遍存在的多样性坍缩问题。通过在偏好优化过程中引入多样性考量,DivPO 能够生成更多样化的回复,同时保持生成内容的质量。该项目由 Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov 在 2025 年发表,特别适用于需要多样性的创意生成任务,如故事生成和人物属性生成。
暂无评论...