Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目,旨在通过强化学习(RL)优化大型语言模型(LLM)代理的推理和决策能力。项目支持多种推理模型(如Deepseek-R1、QwQ-32B)和训练框架(SFT/PPO/DPO),提供包含50,793条轨迹的多领域数据集(操作系统、电商等),并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果,鼓励社区贡献。
OpenManus-RL的特点:
- 1. 支持多种推理模型(Deepseek-R1/QwQ-32B/GPT-O1)
- 2. 提供多样化奖励策略和训练框架(SFT/PPO/DPO/PRM)
- 3. 包含跨6大领域的50,793条轨迹数据集(含防幻觉功能)
- 4. 集成Tree-of-Thoughts/Monte Carlo等高级rollout策略
- 5. 支持ReAct框架与Outcome-based推理格式
- 6. 兼容Veri/TinyZero等RL调优框架
OpenManus-RL的功能:
- 1. 在NQ数据集上训练PPO模型(需Python 3.10环境)
- 2. 通过WebShop/GAIA等基准测试代理性能
- 3. 开发家庭管理或电商领域的智能代理
- 4. 研究者可贡献代码/数据集至开源社区
- 5. 企业用户可定制化RL调优方案
相关导航

2:4 Activation Sparsity Accelerating Transformer Inference and Training论文 – 加速Transformer训练和推理的稀疏性技术
该项目利用2:4稀疏性模式,通过硬件加速的GPU稀疏性来优化Transformer模型的训练和推理过程。特别针对Squared-ReLU激活函数,该函数天然具有高稀疏性(84-98%),在不损失准确性的情况下,前向和后向传播中的前馈网络(FFN)计算速度提高高达1.3倍。项目通过自定义内核高效处理稀疏操作,并通过张量分割和令牌排列优化后向传播,展示了稀疏性在加速大型语言模型(LLM)中的关键潜力。

思绪四散:关于o1类LLMs的欠思考现象论文 – 揭示LLMs推理缺陷并提出改进策略
该项目研究揭示了o1类大型语言模型(LLMs)在复杂推理任务中存在的‘欠思考’现象,即模型倾向于频繁切换不同推理思路而未能深入探索有前景的路径。研究通过三个挑战性测试集(MATH500、GPQA Diamond和AIME)和两个代表性开源o1类模型(QwQ-32B-Preview和DeepSeek-R1-671B)的实验,系统分析了这一问题。研究发现错误回答比正确回答使用更多令牌且思路切换频率更高,超过70%的错误回答包含至少一个正确思路。为量化欠思考,研究引入了ξ_UT指标,并提出‘思路切换惩罚(TIP)’解码策略,通过阻止过早的思路转换来提升模型在挑战性数据集上的准确率。实验结果显示TIP策略显著提高了模型性能,且无需微调模型。
暂无评论...