AIOpsLab是一个全面的框架,用于设计、开发和评估自主的AIOps(人工智能运维)代理,支持构建可重复、标准化、互操作和可扩展的基准测试。它能够部署微服务云环境、注入故障、生成工作负载并导出遥测数据,同时协调这些组件并提供接口与代理进行交互和评估。AIOpsLab还内置了一个基准测试套件,包含一系列问题,用于在交互环境中评估AIOps代理。该套件可以轻松扩展以满足用户特定需求。
GAIA(General AI Assistants benchmark)是一个由Meta AI、HuggingFace和AutoGPT团队推出的基准测试,旨在评估AI代理系统的工具使用能力和自主性。它包含466个复杂现实世界问题,分为三个难度级别,这些问题对人类来说简单,但对当前AI技术来说具有挑战性。GAIA的哲学是,通用人工智能(AGI)的出现依赖于系统在这些问题上表现出与普通人类相似的稳健性。
HAL Harness是一个标准化的AI Agent评估框架与排行榜,旨在让AI代理的评估变得简单、可重复且高效。它支持多种基准测试,涵盖SWE-bench、USACO等,并可以在本地或云端运行,支持并行化以大幅提升效率。此外,HAL Harness无缝集成Weave,自动记录和跟踪成本与使用情况,为AI代理的评估和比较提供了全面的解决方案。
matmul.c是一个针对现代x86处理器优化的高性能矩阵乘法C语言实现库。它支持AVX和FMA指令集,并通过OpenMP实现高效并行化,提供简洁、可移植、可扩展的C代码。在特定配置下,其性能甚至超越NumPy,适用于科学计算、工程应用及矩阵乘法基准测试等场景。
matmul 是一个专注于优化C语言中矩阵乘法性能的项目。它提供了高效的矩阵乘法算法实现,并作为基准测试的参考。该项目深入探索了多种优化技术,旨在提升矩阵运算的效率,适用于需要高性能矩阵乘法的场景。
MMR1是多模态推理领域的前沿项目,通过极少量数据实现顶尖性能。该项目仅使用6k公开数据进行训练,达到了开源7B多模态模型的SOTA性能,并且在6小时内完成高效训练,具有极高的性价比。此外,MMR1采用了数据平衡策略,能够覆盖多样化的数学问题类型。
Awesome Diffusion V2V 是一个基于扩散模型的视频编辑技术和基准测试的资源集合。该项目汇集了多种视频编辑的关键技术和方法,旨在推动视频编辑领域的研究与应用。通过提供丰富的资源列表和基准测试代码,帮助研究人员和开发者更好地理解和应用扩散模型在视频编辑中的潜力。
multi_timescale_replay 是一个专注于多时间尺度回放机制的强化学习项目,旨在提高动态环境中的学习效率和适应性。该项目通过实现多时间尺度回放机制,支持在动态环境中的持续强化学习,并提供工具来实验不同的回放策略。此外,项目还包含基准测试和评估指标,用于评估性能。
这是一个专注于提升大型语言模型(LLM)推理能力的资源库,涵盖了与LLM后训练相关的最新论文、代码实现、基准测试和资源。项目旨在帮助研究人员、开发者和爱好者深入理解如何通过后训练方法(如微调、强化学习等)增强LLM的推理、规划、决策和泛化能力。此外,它还提供了模型对齐、可扩展适应和推理时优化等新兴方向的研究资源。
OmniAlign-V是一个专为多模态大语言模型(MLLMs)设计的项目,旨在通过提供高质量的数据集和优化方法,提升模型在符合人类偏好方面的对齐能力。项目包含20.5万高质量图像问答对,以及专为DPO优化的负样本数据集,帮助模型更好地学习和对齐。此外,项目还引入了MM-AlignBench基准测试,使用GPT-4o作为裁判,客观评估模型在对齐人类偏好方面的表现。
Qwen2.5-Max是一个基于大量数据进行预训练的大型MOELLM,通过策划的SFT和RLHF配方进行后训练,实现了与顶级型号竞争的性能。该模型在多个基准测试中表现出色,包括Arena Hard、LiveBench、LiveCodeBench和GPQA-Diamond等,甚至击败了DeepSeek V3,并在理论性能上超越了DeepSeek-V3。
通过高质量合成数据提升多模态多语言嵌入性能的创新项目,支持多种任务和语言,在MMEB基准测试中达到SOTA性能,致力于推动跨模态学习的进步。
MLGym是Meta开源的首个专门用于机器学习任务的Gym环境,旨在通过13个跨领域的开放式任务训练AI掌握从生成想法到实验分析的完整研究能力。它集成了计算机视觉、自然语言处理、强化学习、博弈论等多个领域的任务,提供了轨迹可视化工具和Web UI,支持Docker和Podman容器化部署,便于快速上手和测试AI模型。
GradientJ旨在使NLP应用更易获取,提供创建、微调和管理NLP应用的综合解决方案,充分利用大语言模型的能力。
VLABench是一个大规模基准测试平台,专为公平评估视觉语言代理、具身代理和视觉语言模型而设计,提供长视野推理任务的支持,适用于多种任务和场景,旨在为研究人员和开发者提供标准化的测试环境。
一个社区驱动的LLM数据和基准测试资源库,提供大量语言模型的详细信息,包括模型参数、上下文窗口大小、许可证详情、性能指标等数据。通过llm-stats.com网站可以交互式探索和比较不同的语言模型。
一份精心收集机器人领域相关的3D视觉论文合集,包括政策学习、预训练、VLM和LLM、数据集和基准等相关论文、代码和相关网站。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
RoboManipBaselines是一个集成了多种模仿学习方法和基准任务环境的软件,旨在为机器人操控提供基准和支持,提升学习效率与准确性。
TAG-Bench是一个用于回答数据库上的自然语言问题的项目,通过Table-Augmented Generation(TAG)模型,探索语言模型与数据库之间的广泛交互,提供首个基准测试研究TAG问题,并验证标准方法在此类查询上的挑战性。
一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
这是一个新的模型,超越其他模型在代理能力基准测试中表现出色,尤其在语言和编码任务上表现优异。