高级推理策略

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

多领域数据集大型语言模型优化开源框架强化学习优化LLM代理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。