AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。
AgentBench的特点:
1. 支持评估25个LLM，包括API和开源模型
2. 包含8个不同的评估环境
3. 能够分析复杂环境中的智能Agent能力
4. 比较顶尖商业LLM和开源模型的性能差距

AgentBench的功能:
1. 使用AgentBench评估特定LLM在多轮对话中的表现
2. 通过不同环境测试LLM的推理和决策能力
3. 分析不同模型在复杂任务中的表现差异

相关导航

RE2 (Re-Reading)-提升LLM推理能力的提示方法

RE2通过在提示中重复输入问题两次来提高LLM的推理能力，增强对问题的理解，并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术，适用于多种LLM和推理任务，能够有效提高模型的表现。

对LLM生成自我解释的研究-评估LLM生成自我解释的能力

本文评估了LLM自动生成特征归因解释的能力，研究不同方式触发自我解释的可信度，并与传统解释方法进行了比较。

超越Chinchilla-Optimal-优化LLM参数与数据配置

在这篇论文中，研究人员修改了Chinchilla扩展定律，以计算最佳的LLM参数数量和预训练数据大小，以训练和部署具有给定质量和推理需求的模型。

ArtPrompt-基于ASCII艺术的越狱攻击工具

ArtPrompt是一个基于ASCII艺术的越狱攻击项目，旨在绕过具有安全机制的语言模型（LLM）。通过利用ASCII艺术形式，该项目能够进行黑盒攻击，测试和评估LLM对非语义提示的识别能力，揭示其脆弱性和局限性。

Confident AI官网 – 全能的LLM评估平台

Confident AI是一个综合性的LLM评估平台，提供14种以上的指标来运行LLM实验，管理数据集，监控并整合人类反馈，以自动改进LLM应用。它与DeepEval协作，支持任何用例。

Haven开源项目 – LLM微调与评估工具

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

Bench开源项目 – 评估语言模型的工具

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

ragas开源项目 – 评估RAG性能的框架

ragas是一个专门用于评估检索增强生成(Retrieval Augmented Generation，RAG)性能的框架。它基于最新的研究提供工具，帮助用户评估语言模型生成的文本，并提供有关RAG管道性能的深入洞见。

LLM Precision Comparison-比较语言模型不同位精度性能

该项目探讨了在不同位精度下的语言模型（LLM）性能比较，尤其是4位和8位精度模型的精度表现。

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

simple-evals开源项目 – 轻量级语言模型评估库

OpenAI开源的轻量级语言模型评估库，主要用于透明化模型性能指标的发布。强调零样本思维链评估方式，提供多个标准化测试基准，支持主流API接口。包含MMLU、MATH等7个核心评估指标，涵盖理解、数学、编程等多维度能力测试。特别包含BrowseComp浏览器智能体专项测试集（1266个高难度问题）。

FLASK开源项目 – 基于对齐技能集的细粒度语言模型评估

FLASK是一个专门用于评估语言模型在语法、语义、推理和生成等任务上表现的工具，旨在提供更准确的评估结果，揭示模型的强项和弱点，并指导语言模型的进一步发展。