多领域数据集

OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL开源 – 强化学习优化LLM代理的开源框架

OpenManus-RL是由Ulab-UIUC和MetaGPT合作领导的开源项目，旨在通过强化学习（RL）优化大型语言模型（LLM）代理的推理和决策能力。项目支持多种推理模型（如Deepseek-R1、QwQ-32B）和训练框架（SFT/PPO/DPO），提供包含50,793条轨迹的多领域数据集（操作系统、电商等），并集成Tree-of-Thoughts等高级策略。项目动态更新研究成果，鼓励社区贡献。

多领域数据集大型语言模型优化开源框架强化学习优化LLM代理

Multi-CPR开源项目 – 多领域中文段落检索数据集

Multi-CPR开源项目 – 多领域中文段落检索数据集

Multi-CPR是一个针对中文段落检索的多领域数据集，旨在支持中文处理的研究与应用。该数据集涵盖多个领域，提供了丰富的样本，帮助研究者和开发者高效地训练和评估检索模型。

中文段落检索数据集多领域数据集数据集基准测试检索模型训练

lealone-bench开源项目 – 性能测试工具，专注于spsc链表

lealone-bench开源项目 – 性能测试工具，专注于spsc链表

lealone-bench 是一个用于性能测试的项目，尤其关注 spsc 链表的性能对比，包含了多种性能测试工具和示例代码。

spsc链表性能对比性能基准测试性能测试工具

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset开源项目 – 清晰路径机器人仓库增量数据集

Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集，来源于清晰路径机器人仓库，旨在提供增量感知数据，支持机器人导航和环境理解的研究。

增量感知数据集机器人导航机器学习环境理解

Lemur开源项目 – 超越其他模型的代理能力

Lemur开源项目 – 超越其他模型的代理能力

这是一个新的模型，超越其他模型在代理能力基准测试中表现出色，尤其在语言和编码任务上表现优异。

代理能力模型代码生成基准测试编程辅助

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark开源项目 – 内存高效的LLM微调基准研究

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark开源项目 – 内存高效的LLM微调基准研究

本项目对零阶优化技术进行了基准研究，重点关注在微调大型语言模型时的内存效率。

优化算法基准测试内存高效的LLM微调零阶优化技术

SciBench-评估语言模型在科学问题解决中的能力

SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试，研究发现当前的语言模型在整体性能方面表现不佳，仅得到35.80%的分数。

基准测试推理能力科学问题解决语言模型评估

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3