OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目,旨在通过强化学习(RL)优化大型语言模型(LLM)代理的推理和决策能力。项目支持多种推理模型(如Deepseek-R1、QwQ-32B)和训练框架(SFT/PPO/DPO),提供包含50,793条轨迹的多领域数据集(操作系统、电商等),并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果,鼓励社区贡献。
Multi-CPR是一个针对中文段落检索的多领域数据集,旨在支持中文处理的研究与应用。该数据集涵盖多个领域,提供了丰富的样本,帮助研究者和开发者高效地训练和评估检索模型。
lealone-bench 是一个用于性能测试的项目,尤其关注 spsc 链表的性能对比,包含了多种性能测试工具和示例代码。
Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集,来源于清晰路径机器人仓库,旨在提供增量感知数据,支持机器人导航和环境理解的研究。
这是一个新的模型,超越其他模型在代理能力基准测试中表现出色,尤其在语言和编码任务上表现优异。
本项目对零阶优化技术进行了基准研究,重点关注在微调大型语言模型时的内存效率。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。