自动化评估

WarmCall官网 – AI语音助手提升销售互动效率

WarmCall是一个利用AI语音机器人来评估销售提案的平台，旨在提高买卖双方的互动效率。通过自动化评估，买家可以与经过审核的供应商进行互动，确保销售提案的相关性和有效性。

AI语音助手买卖双方互动潜在客户生成自动化评估

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair是一个Python库，旨在评估大型语言模型（LLM）在具体用例中的偏见和公平性。它提供超过20种评估指标，支持多种LLM用例，并配备自动化评估工具，简化了评估流程。

LangFairLLM评估工具偏见评估公平性分析

CRAG开源项目 – 综合性RAG基准测试工具

CRAG开源项目 – 综合性RAG基准测试工具

META发布的综合性RAG基准测试工具，专门用于评估检索增强生成(RAG)系统的性能。

RAG基准测试工具性能评估知识图谱搜索自动化评估

Bench开源项目 – 评估语言模型的工具

Bench开源项目 – 评估语言模型的工具

Bench是一个用于评估语言模型(LLM)在生产用例中的工具，支持多种语言模型的评估，并提供详细的评估报告和指标，易于集成到现有的生产环境中，且支持自定义评估用例。

自动化评估评估报告生成语言模型评估工具

Haven开源项目 – LLM微调与评估工具

Haven开源项目 – LLM微调与评估工具

Haven是一个用于大型语言模型微调和评估的工具，拥有简单的用户界面，可以方便地进行模型微调并基于多种标准进行评估。

Haven-LLM微调工具机器学习工具集成用户友好的微调界面语言模型评估工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval开源项目 – 评估语言模型性能的工具

ai2-olmo-eval 是一个评估套件，旨在为语言模型在自然语言处理任务上运行评估管道，提供多种评估指标和详细报告，支持扩展和自定义评估。

NLP任务评估自定义评估评估报告语言模型评估工具

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks-探讨语言模型的推理能力与局限性

该论文探讨了语言模型在反事实任务中的能力和限制，揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。

任务解决过程反事实任务抽象推理分析语言模型能力评估

Aviary开源项目 – 基于Gymnasium的语言模型训练平台

Aviary开源项目 – 基于Gymnasium的语言模型训练平台

Aviary是一个基于Gymnasium框架的语言模型Agent训练平台，专注于构建性任务，提供了灵活的训练环境和多种模型集成，旨在满足研究和应用中的多样化需求。

基于Gymnasium的语言模型训练平台模型性能评估自定义训练任务语言模型Agent训练

OpenCompass开源项目 – 一个高效的LLM评测平台

OpenCompass开源项目 – 一个高效的LLM评测平台

OpenCompass是一个大型语言模型评测平台，支持20多种模型和50多个数据集，能够通过高效的分布式评估技术进行快速全面的基准测试。

LLM评测平台分布式评估技术模型性能评估

ai-rd-tasks开源项目 – 评估大语言模型AI研发能力的任务集合

ai-rd-tasks开源项目 – 评估大语言模型AI研发能力的任务集合

一套评估大语言模型AI研发能力的任务集合，包含7个具有挑战性的任务，涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域，每个任务都有明确的评分标准和基准分数，用于测试AI代理与人类专家的能力对比

AI代理性能测试AI研发能力评估LLM训练优化Rust代码编程

SciBench-评估语言模型在科学问题解决中的能力

SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试，研究发现当前的语言模型在整体性能方面表现不佳，仅得到35.80%的分数。

基准测试推理能力科学问题解决语言模型评估

DeepEval开源项目 – 轻松评估大语言模型

DeepEval开源项目 – 轻松评估大语言模型

提供一种 Pythonic 方式在 LLM 管线上运行离线评估，以便轻松投入生产

LLM评估工具模型性能验证自动化测试框架

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair开源项目 – 评估LLM的偏见与公平性

LangFair是一个Python库，旨在评估大型语言模型（LLM）在具体用例中的偏见和公平性。它提供超过20种评估指标，支持多种LLM用例，并配备自动化评估工具，简化了评估流程。

LangFairLLM评估工具偏见评估公平性分析

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All是一款在本地运行的大型语言模型（LLM），最新发布了V3.0版本，支持多种模型架构，并与多种工具和平台集成。它基于LLaMa模型，使用约80万条GPT-3.5-Turbo生成的数据进行训练，支持多种类型的对话，包括代码和故事。GPT4All完全本地运行，确保数据隐私，支持Windows、MacOS、Ubuntu等操作系统，并具有改进的UI/UX。

Llama模型开源聊天机器人本地测试自定义模型训练

ccks2021-track3开源项目 – 中文NLP地址相关性任务的冠军方案

ccks2021-track3开源项目 – 中文NLP地址相关性任务的冠军方案

‘英特尔创新大师杯’深度学习挑战赛赛道3专注于中文自然语言处理中的地址相关性任务，提供了一种基于深度学习的高效解决方案，包含模型训练、评估及开源实现，旨在促进社区的使用与贡献。

中文自然语言处理地址相关性任务开源项目模型训练与评估

Cerbrec Graphbook官网 – 专注模型架构的图示平台

Cerbrec Graphbook 是一个图示平台，旨在让数据科学家专注于模型架构，而非基础设施和软件工程。用户可以从原子级别查看和编辑模型架构，提供透明的AI建模，避免黑箱问题。此外，Graphbook还支持实时检查数据类型和形状，简化模型调试过程，快速识别和修复错误。该平台还抽象了软件依赖关系和环境配置，使用户能够专注于模型架构和数据流。

AI建模图示平台数据科学模型架构

Cleora.ai官网 – 为数据科学团队提供高质量嵌入

Cleora PRO帮助数据科学和分析团队在没有昂贵硬件的情况下创建高质量的嵌入。用户可以通过加入Cleora PRO的私人测试版，从数据库中提取三列数据，系统会自动检测数据中的图形。

企业模型支持数据分析自动图形检测高质量嵌入生成工具

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3