语言模型评估

TextArena开源项目 – 语言模型评估与强化学习的文本游戏集合

TextArena开源项目 – 语言模型评估与强化学习的文本游戏集合

TextArena 是一个专为语言模型评估和强化学习设计的文本游戏集合，提供多种基于文本的游戏环境，支持单机、双人和多人模式，具备本地和在线多人实时评分功能，并采用 Elo 排名系统。项目使用 OpenAI Gym 风格的接口，便于与各种框架集成，适用于语言模型在竞争性文本场景中的评估、强化学习实验、新文本游戏的开发与测试，以及与现有机器学习框架的集成研究。

OpenAI Gym 接口强化学习文本游戏机器学习框架集成

Ottic官网 – 高效的语言模型测试平台

Ottic是一个用于语言模型(LLM)产品的QA平台，旨在帮助技术和非技术团队高效测试基于LLM的应用程序。它提供了端到端的测试管理、全面的LLM评估和实时用户行为监控等功能。

LLM测试平台测试管理工具用户行为监控语言模型评估

Zeno Build开源项目 – 快速构建和迭代语言模型应用的工具

Zeno Build开源项目 – 快速构建和迭代语言模型应用的工具

Zeno Build旨在帮助开发人员快速构建、比较和迭代使用大型语言模型应用的工具，提供简单的代码示例和实验管理功能。

实验管理工具快速构建语言模型应用语言模型评估超参数优化

SciBench-评估语言模型在科学问题解决中的能力

SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试，研究发现当前的语言模型在整体性能方面表现不佳，仅得到35.80%的分数。

基准测试推理能力科学问题解决语言模型评估

iGSM开源项目 – 生成小学数学问题数据集的工具

iGSM开源项目 – 生成小学数学问题数据集的工具

iGSM是一个用于生成小学数学问题数据集的工具，能够创建不同难度级别的数学问题，并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力，同时创建可用于教育和研究的数据集。

教育数据集数学推理能力分析数学问题生成工具语言模型评估

MedAlign-指导临床医师生成EHR数据集

MedAlign是一个专门用于帮助临床医师遵循电子病历生成数据集的工具，旨在提升医疗数据的质量和一致性。该项目提供了一个基准数据集，包含983个自然语言指令，由15名临床医生策划，涵盖7个专业领域，并提供303个医生编写的参考响应。此外，它还包含276个纵向电子健康记录（EHR），用于指导指令-响应对，同时也可以用于评估六种常规领域语言模型的性能。

EHR数据集临床医师支持医疗数据生成工具语言模型评估

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

一个通过模拟面试过程来评估大型语言模型（LLMs）能力的框架，让一个LLM扮演面试官的角色，通过提供反馈和追问问题来全面评估其他LLMs的能力。

AI面试官LLM模拟面试语言模型评估

Awesome-Code-LLM开源项目 – 关于代码大语言模型的调研报告

Awesome-Code-LLM开源项目 – 关于代码大语言模型的调研报告

一项关于代码大语言模型的调研报告，系统地回顾了语言模型在代码处理方面的最新进展。

GitHub调查报告代码处理进展代码大语言模型调研语言模型评估

Hallucination Leaderboard开源项目 – 评估语言模型幻觉表现的排行榜

Hallucination Leaderboard开源项目 – 评估语言模型幻觉表现的排行榜

Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜，旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率，目前显示GPT-4和GPT-3.5表现最佳。

学术研究支持幻觉表现排行榜模型输出质量分析语言模型评估

DebugBench-一个LLM调试基准平台

DebugBench是一个包含4,253个实例的LLM调试基准，涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench，作者从LeetCode社区收集了代码片段，使用GPT-4向源数据植入漏洞，并确保了严格的质量检查。

GPT-4LLM调试基准代码调试漏洞检测

Promptfoo官网 – LLM提示测试工具，提升模型效果

Promptfoo是一个专门为测试和增强语言模型数学（LLM）提示而设计的库，提供强大的工具来评估提示质量和模型输出，从而提升结果。

提升模型效果提示测试工具测试用例创建自定义评估指标

Claude Prompt Generator开源项目 – 生成和优化语言模型提示的工具

Claude Prompt Generator开源项目 – 生成和优化语言模型提示的工具

一款用于生成和优化语言模型提示的工具，支持从零开始创建提示或将现有提示转换为Claude3提示，以提高输出效果和对齐度

AI提示创建工具Claude3提示生成工具语言模型提示优化工具

OpenPipe开源项目 – 数据驱动的LLM提示测试平台

OpenPipe开源项目 – 数据驱动的LLM提示测试平台

OpenPipe是一个自托管的平台，旨在以数据驱动的方式快速生成、测试和比较LLM提示。用户可以轻松地在不同模型之间翻译提示，从而优化模型的表现。

数据驱动的LLM提示测试平台模型提示优化工具自托管提示生成工具

GPT vs. Gemini官网 – 实时对比多个AI模型的性能

GPT vs. Gemini是一个平台，用户可以通过输入提示，实时获得来自多个模型的响应，从而比较GPT-4与其他模型的效果。该平台还提供Gemini 1.5 Pro的私人测试版，具有1M的上下文窗口，方便用户进行深入的对比和探索。

GPT-4与Gemini性能评估多模型响应比较实时AI模型对比

LLM Prompt & ModelPlayground官网 – 实时测试LLM提示与模型

LLM Prompt & Model Playground 是一个让用户可以并排测试两个LLM提示、模型或配置的工具。它支持多种输入的实时测试，极大地加快了提示和模型的测试过程，并且提供了慷慨的免费使用额度。该项目由Context.ai开发。

LLM提示测试工具实时模型比较提示优化工具用户友好的AI工具

Many Shot Predictions官网 – 强大的AI模型比较工具

Many Shot Predictions应用程序是一款强大的工具，能够比较和分析各种AI模型的性能。用户可以使用不同的模型对相同的提示进行多次预测，从而得出最佳答案。

AI模型性能比较多模型预测工具实时性能比较结果可视化

Promptmetheus官网 – AI开发平台，便捷创建和测试提示

Promptmetheus是一个开发平台，旨在帮助用户为OpenAI平台撰写、测试和评估一次性提示。它使用户能够为他们的应用程序创建专用的AIPI（AI编程接口），充分利用ChatGPT和其他大型语言模型的强大功能。

AI提示创建工具AI模型测试平台提示优化与管理

ChatPlayground.ai官网 – 访问顶级AI模型，比较输出效果

ChatPlayground.ai是一款强大的AI工具，用户可以访问一流的AI模型，并能够比较不同模型的输出效果。此外，它还提供了AI浏览器助手和定制的AI工作流程功能，帮助用户在网络上更高效地使用AI技术。

AI工具AI模型比较AI浏览器助手定制化工作流程

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3