语言模型评估工具

simple-evals开源项目 – 轻量级语言模型评估库

simple-evals开源项目 – 轻量级语言模型评估库

OpenAI开源的轻量级语言模型评估库，主要用于透明化模型性能指标的发布。强调零样本思维链评估方式，提供多个标准化测试基准，支持主流API接口。包含MMLU、MATH等7个核心评估指标，涵盖理解、数学、编程等多维度能力测试。特别包含BrowseComp浏览器智能体专项测试集（1266个高难度问题）。

AI性能测试库OpenAI开源项目语言模型评估工具零样本思维链评估

ragas开源项目 – 评估RAG性能的框架

ragas开源项目 – 评估RAG性能的框架

ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation，RAG)性能的框架。它基于最新的研究提供工具，帮助用户评估语言模型生成的文本，并提供有关RAG管道性能的深入洞见。

RAG性能评估框架检索增强生成评估语言模型评估工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

偏见分析基准测试工具微调语言模型语言模型评估工具

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具，旨在提供更准确的评估结果，揭示模型的强项和弱点，并指导语言模型的进一步发展。

模型性能分析细粒度评估语言模型评估工具

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium开源项目 – 评估语言模型规划能力的基准测试

Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具，具备图同构的比较方法，旨在帮助研究人员分析和提升模型的性能。

PDDL转换工具模型性能分析语言模型评估工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval 是一个评估套件，旨在为语言模型在自然语言处理任务上运行评估管道，提供多种评估指标和详细报告，支持扩展和自定义评估。

NLP任务评估自定义评估评估报告语言模型评估工具

Bench开源项目 – 评估语言模型的工具

Bench开源项目 – 评估语言模型的工具

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

自动化评估评估报告生成语言模型评估工具

Haven开源项目 – LLM微调与评估工具

Haven开源项目 – LLM微调与评估工具

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

Haven-LLM微调工具机器学习工具集成用户友好的微调界面语言模型评估工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

LLM性能比较多轮对话能力评估语言模型评估工具

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum开源项目 – 评估 LLM 质量的新方法

llm-colosseum 是一种评估大型语言模型 (LLM) 质量的新方法，通过模拟《Street Fighter 3》中的战斗表现作为基准，帮助研究人员和开发者了解和分析 LLM 的决策能力和适应性。该项目强调实时游戏中的快速决策、智能思考、适应性调整和整体弹性。

LLM质量评估决策能力测试实时游戏评估适应性分析

LLMPerf Leaderboard开源项目 – LLM推理性能基准测试工具

LLMPerf Leaderboard开源项目 – LLM推理性能基准测试工具

使用LLMPerf工具对LLM推理提供商进行基准测试，通过关键指标评估它们的性能、可靠性和效率，展示结果的透明度和可视化

LLM推理性能基准测试工具基准测试报告生成性能评估透明度和可视化

BIG-bench开源项目 – 全面评估AI模型性能的基准工具

BIG-bench开源项目 – 全面评估AI模型性能的基准工具

BIG-Bench是一个用于评估神经网络模型性能的基准测量工具，旨在提供全面的评估方法，通过多个任务和指标来衡量AI模型的能力。

AI模型性能评估工具基准测试大型语言模型评估

Skyvern AI开源项目 – 自动化浏览器工作流程

Skyvern AI开源项目 – 自动化浏览器工作流程

Skyvern AI 是一个通过大语言模型（LLM）和计算机视觉技术，自动化基于浏览器的工作流程的项目。它提供了一个简单的 API 端点，便于集成到现有系统中，完全自动化手动工作流程，取代脆弱或不可靠的自动化解决方案。

LLM浏览器自动化自动化工作流程计算机视觉

RE2 (Re-Reading)-提升LLM推理能力的提示方法

RE2通过在提示中重复输入问题两次来提高LLM的推理能力，增强对问题的理解，并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术，适用于多种LLM和推理任务，能够有效提高模型的表现。

RE2提示方法双向编码思想激发提示技术提升LLM推理能力

Drive Like A Human开源项目 – 重新定义自动驾驶的智能交互

Drive Like A Human开源项目 – 重新定义自动驾驶的智能交互

用大型语言模型重新思考自动驾驶，使用GPT-3.5作为默认的大型语言模型(LLM)，介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法

大型语言模型性能优化自动驾驶驾驶场景交互

awesome-lifelong-llm-agent开源项目 – 基于LLM的终身学习代理资源库

awesome-lifelong-llm-agent开源项目 – 基于LLM的终身学习代理资源库

关于基于大型语言模型（LLM）的终身学习（Lifelong Learning）代理（Agent）的资源和研究论文的库，旨在促进LLM在不断变化环境中的适应能力，收集了优秀的调研和资源，包含多篇相关研究论文，并提供多样的学习和应用案例。

LLM适应能力基于LLM的终身学习代理研究论文汇总社区讨论

对LLM生成自我解释的研究-评估LLM生成自我解释的能力

本文评估了LLM自动生成特征归因解释的能力，研究不同方式触发自我解释的可信度，并与传统解释方法进行了比较。

LLM自我解释能力评估可解释性研究情感分析解释生成

SlashGPT开源项目 – 开发人员快速制作LLM智能体的试炼场

SlashGPT开源项目 – 开发人员快速制作LLM智能体的试炼场

SlashGPT是一个旨在帮助开发人员快速制作大语言模型(LLM)智能体或具有自然语言用户界面的应用原型的平台。它提供了丰富的功能和灵活的API，支持快速的原型开发和测试，适合教育和实验用途。

LLM智能体开发平台快速原型开发教育实验工具自然语言处理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3