OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

OpenManus-RL的特点:

1. 支持多种推理模型（Deepseek-R1/QwQ-32B/GPT-O1）
2. 提供多样化奖励策略和训练框架（SFT/PPO/DPO/PRM）
3. 包含跨6大领域的50,793条轨迹数据集（含防幻觉功能）
4. 集成Tree-of-Thoughts/Monte Carlo等高级rollout策略
5. 支持ReAct框架与Outcome-based推理格式
6. 兼容Veri/TinyZero等RL调优框架

OpenManus-RL的功能:

1. 在NQ数据集上训练PPO模型（需Python 3.10环境）
2. 通过WebShop/GAIA等基准测试代理性能
3. 开发家庭管理或电商领域的智能代理
4. 研究者可贡献代码/数据集至开源社区
5. 企业用户可定制化RL调优方案

相关导航

mcts-llm开源项目 – 提升大型语言模型性能的轻量级项目

mcts-llm是一个集成了蒙特卡洛树搜索（MCTS）和提示工程技术的轻量级项目，旨在提高大型语言模型（LLMs）的性能。该项目通过结合MCTS算法与大型语言模型，优化提示工程，来提升模型的响应质量。其轻量级的设计使得该项目易于集成和使用，并且支持多种语言模型，适用于各种自然语言处理任务。

Vanna开源项目 – 一款易用的 SQL 生成 AI 框架

连续上榜 GitHub Trending 的一款 SQL 生成 AI 框架，允许在你的数据上训练出独有的 RAG（检索增强生成）模型，通过自然语言准确生成 SQL 查询语句和相关功能。

XAIreason开源项目 – 增强AI推理能力的开源框架

XAIreason是一个专为推理任务设计的开源框架，为开发者提供构建逻辑性强AI系统的工具，通过增强模型的推理能力，支持复杂问题的高效求解。它具备推理引擎、知识整合、模型优化、可视化支持和兼容性强等特点，适用于决策系统、知识问答和透明AI等多种场景。

OpenSparseLLMs/Linearization开源项目 – 提升LLM计算效率的创新项目

OpenSparseLLMs/Linearization是一个将大型语言模型线性化为门控循环结构的创新项目，旨在通过线性化显著提升模型的计算效率。该项目提出了Liger框架，实现了LLMs的高效线性化，并提供了完整的训练与评估流程，助力模型优化。

Predibase RFT官网 – 首个端到端强化微调平台

Predibase RFT 是由 Predibase 开发的强化微调平台，专注于通过强化学习优化大型语言模型（LLMs）。与传统监督式微调不同，RFT 不需要大量标注数据，而是通过奖励函数和自定义函数实现持续的强化学习。用户可以通过浏览器设置微调目标并上传数据，简化大型模型微调流程。平台支持课程学习、多 LoRA 框架和流式微批处理技术，提升训练和推理效率。此外，RFT 提供高性能无服务器部署解决方案，方便用户快速将训练好的模型部署到生产环境中。

VerifAI’s MultiLLM官网 – 开源框架并行调用LLM

VerifAI的MultiLLM是一个开源框架，通过并行调用多个大型语言模型（LLM）并对其输出进行排名，以找到最佳结果（真实值）。该框架可扩展以支持新的LLM和自定义排名函数，从而评估来自不同LLM的多样化输出。

LiveKit Agents开源项目 – 构建实时多模态AI应用的开源框架

LiveKit Agents 是一个完全开源的框架，旨在帮助开发者构建能够实时处理语音、视频和文本的多模态AI应用。它提供了一套完整的工具和接口，简化了AI代理的开发流程，集成了语音管道代理、多模态代理、实时媒体传输、任务调度、电话集成和数据交换等功能。开发者可以根据具体应用场景选择合适的模型和服务，并与 LiveKit 的 Telephony Stack 无缝集成，使代理能够拨打或接听电话。

XAIstream开源项目 – 实时AI处理开源框架

XAIstream是一个专为实时AI处理设计的开源框架，为开发者提供构建低延迟智能系统的工具。它支持流式数据的高效处理，适用于动态场景下的模型应用。通过流式计算、推理加速、动态调度、硬件适配和接口支持等功能，XAIstream能够帮助开发者在各种实时场景中高效地应用AI技术。

Ctrl-G开源项目 – 适应性逻辑控制大型语言模型

Ctrl-G是一个为大型语言模型提供适应性逻辑控制的项目，旨在优化模型的输出，使其更符合用户的交互需求。该项目通过引入逻辑控制机制，提升模型的响应准确性和合理性。

VPTQ开源项目 – 极低比特的向量后训练量化

VPTQ是一种针对大型语言模型的极低比特向量后训练量化方法，旨在通过量化技术提高模型的计算效率和存储效率，同时保持模型性能。该项目适用于各种大型语言模型的优化，能够显著减少模型的内存占用和计算资源需求。

Multi-CPR开源项目 – 多领域中文段落检索数据集

Multi-CPR是一个针对中文段落检索的多领域数据集，旨在支持中文处理的研究与应用。该数据集涵盖多个领域，提供了丰富的样本，帮助研究者和开发者高效地训练和评估检索模型。

所有路径通向似然：强化学习在微调中的价值论文 – RLHF在微调中的优越性研究

该项目探讨了强化学习（RL）在大型语言模型微调中的价值，特别关注基于人类反馈的强化学习（RLHF）为何通常优于离线偏好微调方法。论文提出了“生成-验证差距”假说，解释RLHF通过学习一个相对简单的奖励模型，并将策略搜索空间限制在对该奖励模型最优的策略子集，从而实现更好的性能。项目包括理论分析和实验验证，并提供了贝叶斯和频率学方法的替代方案。

Letta开源项目 – 开源框架，构建有记忆的LLM服务

Letta是一个开源框架，用于构建具有内存功能的大型语言模型（LLM）服务。它允许用户创建具有高级推理能力和透明长期记忆的状态感知代理。Letta使用数据库持久化代理状态，支持多种LLM API后端（如OpenAI、Anthropic等），并采用模块化设计，便于集成和扩展。Letta已广泛应用于客户支持聊天机器人、个性化推荐引擎和知识库助手等场景。

Q-Filters开源 – 无需训练的KV缓存压缩方法

Q-Filters 是一种无需训练的 KV 缓存压缩方法，适用于大型语言模型。它利用查询和键向量的几何特性，通过上下文无关的简单投影高效压缩 KV 缓存，无需额外训练。该方法与 FlashAttention 兼容，在长上下文任务中表现出色，实验显示在高压缩比下仍能保持良好性能，例如在针挑草堆任务中达到 99% 准确率（压缩比 32 倍），并在文本生成中比 Streaming-LLM 减少高达 65% 的生成困惑度下降。

Diverse Preference Optimization (DivPO)论文 – 提升LLM生成内容多样性的优化方法

Diverse Preference Optimization (DivPO) 是一种在线优化方法，旨在解决大型语言模型（LLM）在后训练阶段普遍存在的多样性坍缩问题。通过在偏好优化过程中引入多样性考量，DivPO 能够生成更多样化的回复，同时保持生成内容的质量。该项目由 Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov 在 2025 年发表，特别适用于需要多样性的创意生成任务，如故事生成和人物属性生成。

暂无评论

暂无评论...