LLM评估工具

LLM-Agent-Benchmark-List开源项目 – 评估LLM和Agent模型的工具

LLM-Agent-Benchmark-List开源项目 – 评估LLM和Agent模型的工具

LLM-Agent-Benchmark-List是一个为人工智能领域中大型语言模型（LLMs）和Agent驱动模型提供系统化评估资源的工具，旨在推动向通用人工智能（AGI）的探索。通过提供基准测试和比较数据，帮助研究者和开发者更好地理解和改进这些模型的性能。

Agent模型评估AGI研究工具LLM评估工具

SWELancer-Benchmark开源项目 – 评估LLM在真实软件工程中的表现

SWELancer-Benchmark开源项目 – 评估LLM在真实软件工程中的表现

SWELancer-Benchmark是一个专为评估大型语言模型（LLMs）在复杂编程任务中表现而设计的项目。它提供真实世界的软件工程任务数据集，旨在挑战和测试LLMs在自由职业软件工程中的实际应用能力。该项目为研究和开发提供了完整的代码和工具支持，助力研究人员和开发者深入探索LLMs在真实环境中的表现。

LLM评估工具开源项目软件工程任务数据集

Awesome-LLM-Judges开源项目 – 一站式LLM评估工具集合

Awesome-LLM-Judges开源项目 – 一站式LLM评估工具集合

Awesome-LLM-Judges是一个一站式LLM Judges工具大集合，旨在为AI模型的自动评估提供全面解决方案。该项目汇集了30+前沿LLM Judges研究论文，涵盖多种评估场景，如辩论、安全、幻觉检测等。此外，它还提供了开源库Verdict，方便用户快速实现论文中的方法。

LLM评估工具开源项目研究论文集合自动评估AI模型

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair是一个Python库，旨在评估大型语言模型（LLM）在具体用例中的偏见和公平性。它提供超过20种评估指标，支持多种LLM用例，并配备自动化评估工具，简化了评估流程。

LangFairLLM评估工具偏见评估公平性分析

Moonshot开源项目 – 评估大型语言模型的工具

Moonshot开源项目 – 评估大型语言模型的工具

一款用于评估和红队任何大型语言模型（LLM）应用的简单且模块化工具，由AI验证基金会开发，集成了基准测试和红队测试，帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。

AI开发者工具LLM评估工具合规评估工具红队测试

LightEval开源项目 – 轻量级的LLM评估工具

LightEval开源项目 – 轻量级的LLM评估工具

LightEval是一个轻量级的LLM评估套件，Hugging Face在内部使用，并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。

Hugging FaceLLM评估工具模型性能评估轻量级工具

Awesome LLMs as Judges开源项目 – LLM评估工具的资源集合

Awesome LLMs as Judges开源项目 – LLM评估工具的资源集合

集合了基于大型语言模型（LLM）评估方法的综合调研项目，旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。

LLM评估工具内容生成评估文本质量评估研究资源

DeepEval开源项目 – 轻松评估大语言模型

DeepEval开源项目 – 轻松评估大语言模型

提供一种 Pythonic 方式在 LLM 管线上运行离线评估，以便轻松投入生产

LLM评估工具模型性能验证自动化测试框架

Tonic Validate Metrics开源项目 – 开源 RAG 评估指标包

Tonic Validate Metrics开源项目 – 开源 RAG 评估指标包

Tonic Validate Metrics 是一个开源的评估指标包，旨在为生成模型的输出提供多种评估指标，支持模型性能对比，易于集成到机器学习工作流，并兼容多种数据格式和输入类型。

CI/CD自动化评估Python评估工具开源评估指标包机器学习工作流集成

llm-numbers开源项目 – 为LLM开发者提供重要数字

llm-numbers开源项目 – 为LLM开发者提供重要数字

llm-numbers是一个每个LLM开发人员都应该了解的工具，提供关键的统计数据和指标，帮助开发者深入理解模型性能。它支持多种语言模型的评估，并易于集成到现有的机器学习工作流中。此外，llm-numbers还提供可视化工具，以便展示模型数据，让开发者更直观地分析结果。

LLM性能评估工具数据可视化工具机器学习工作流集成

Langtail官网 – AI应用开发的高效工具

Langtail是一款创新的AI工具，旨在简化AI应用的开发和部署，尤其是大型语言模型（LLM）驱动的应用。它通过提供强大的调试、测试和监控功能，解决了应用开发中常见的不可预测行为问题，能够无缝集成到AI开发工作流中，提高生产力和效率，无论是优化AI提示还是将其部署为API端点。

AI应用开发工具LLM调试工具团队协作工具应用监控

mlx-examples开源项目 – 在Mac上运行语言模型的示例项目

mlx-examples开源项目 – 在Mac上运行语言模型的示例项目

这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型，支持在Apple M2 Ultra上进行高效的模型训练和推理，提供简化的模型权重下载和加载流程，同时兼容Python环境。

Apple M2 UltraMLX框架模型训练与推理混合专家架构

Bench开源项目 – 评估语言模型的工具

Bench开源项目 – 评估语言模型的工具

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

自动化评估评估报告生成语言模型评估工具

ml-calibration开源项目 – 用于模型校准和可靠性分析的工具

ml-calibration开源项目 – 用于模型校准和可靠性分析的工具

ml-calibration是一个用于测量校准和绘制可靠性图表的工具包，提供了可视化方法来评估模型的校准程度，并生成可靠性图表以帮助分析模型的可靠性。该工具包支持多种校准方法的比较，易于集成到现有的机器学习工作流中。

可视化方法可靠性分析机器学习工作流模型校准工具

Ludwig v0.8官网 – 简化构建机器学习模型的框架

Ludwig v0.8是一个开源的低代码框架，旨在帮助开发者轻松构建先进的机器学习模型，特别是优化用于使用私有数据构建定制的大型语言模型（LLM）。它提供了一种声明式接口，使得模型的构建过程更加高效和简便。

低代码机器学习框架定制大型语言模型开源机器学习工具

LLM Finetuning Hub开源项目 – 个性化微调大型语言模型

LLM Finetuning Hub开源项目 – 个性化微调大型语言模型

LLM微调中心，用于将各种大型语言模型进行微调，以适应个性化用例，提供丰富的微调脚本和最新研究成果，支持模型部署及自定义微调，旨在提高模型在特定数据集上的性能。

API接口LLM微调个性化微调大型语言模型

SiLLM开源项目 – 简化Apple Silicon上大语言模型的训练与推理

SiLLM开源项目 – 简化Apple Silicon上大语言模型的训练与推理

基于 MLX 框架的 Silicon LLM 训练和推理工具包，简化了在 Apple Silicon 上训练和运行大语言模型的过程，旨在为开发者提供高效、易用的工具，以应对资源有限的设备上的大语言模型需求。

Apple SiliconMLX框架大语言模型训练机器学习工具

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准，提供多种评测任务，支持各种模型和算法的评估，易于扩展和定制，旨在推动中文NLP研究的发展。

中文NLP小样本学习测评基准模型评估工具自定义评测任务

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3