LLMs训练与评估工具

SciPhi开源项目 – 支持LLMs训练与评估的工具

SciPhi开源项目 – 支持LLMs训练与评估的工具

SciPhi旨在支持大型语言模型(LLMs)的训练和评估，提供了数据生成和模型输出评估两个关键功能，帮助用户高效地生成合成数据，并对模型的性能进行稳健的评估。

LLMs训练与评估工具合成数据生成模型性能评估

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

LLM-as-an-Interviewer开源项目 – 模拟面试，评估语言模型能力

一个通过模拟面试过程来评估大型语言模型（LLMs）能力的框架，让一个LLM扮演面试官的角色，通过提供反馈和追问问题来全面评估其他LLMs的能力。

AI面试官LLM模拟面试语言模型评估

The False Promise of Imitating Proprietary LLMs-评估开源大语言模型的实际能力

该论文评估了许多开源大语言模型在使用ChatGPT数据微调后的效果，认为这些模型虽然表面上看似提升，但在事实性、编码能力和问题解决方面表现不佳，强调了提高基础语言模型性能的重要性。

开源大语言模型评估微调影响分析语言模型性能提升

PROMETHEUS-完全开源的细粒度评估语言模型

PROMETHEUS是一个在语言模型中引入细粒度评估能力的完全开源LLM，能够在配备适当的参考资料时展现出与专有模型相媲美的评估能力。

大规模任务评估完全开源LLM用户自定义评估标准细粒度评估

Inspect开源项目 – 大型语言模型评估框架

Inspect开源项目 – 大型语言模型评估框架

Inspect是一个用于评估大型语言模型性能的框架，提供多种评估指标与方法，支持不同类型的模型，易于与现有机器学习工作流集成，同时支持可视化和结果分析。

可视化结果分析大型语言模型评估框架机器学习工作流集成模型性能评估

Aviary开源项目 – 基于Gymnasium的语言模型训练平台

Aviary开源项目 – 基于Gymnasium的语言模型训练平台

Aviary是一个基于Gymnasium框架的语言模型Agent训练平台，专注于构建性任务，提供了灵活的训练环境和多种模型集成，旨在满足研究和应用中的多样化需求。

基于Gymnasium的语言模型训练平台模型性能评估自定义训练任务语言模型Agent训练

LM Buddy开源项目 – 微调和评估开源语言模型的工具

LM Buddy开源项目 – 微调和评估开源语言模型的工具

用于微调和评估开源大型语言模型的工具集，目前处于早期开发阶段，旨在为研究人员和开发者提供一个强大、灵活且易于使用的解决方案。

开发者工具开源工具微调开源语言模型研究人员工具

RestGPT开源项目 – 通过API控制现实世界应用的语言模型

RestGPT开源项目 – 通过API控制现实世界应用的语言模型

RestGPT 是基于大型语言模型的自主代理的代码实现，通过 RESTful API 控制现实世界的应用程序。它旨在将语言模型与 API 连接起来，解决与规划、API 调用和响应解析相关的挑战。

API 调用RESTful API上下文学习模型性能评估

Aidan Bench开源项目 – 衡量LLMs创新性与可靠性的工具

Aidan Bench开源项目 – 衡量LLMs创新性与可靠性的工具

Aidan Bench是一个专门用于评估大型语言模型（LLMs）创新性与可靠性的工具。通过一系列开放式问题，它测试模型的创造力、可靠性、上下文注意力和指令遵循能力，旨在揭示在标准基准测试中可能被低估的能力。

Aidan BenchLLMs评估工具创新性与可靠性测试模型性能比较

LLMonitor官网 – AI开发者的开源可观察性工具

LLMonitor是一个开源的监控与评估工具，专为AI开发者设计，旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能，帮助开发者优化和调试复杂的AI代理和聊天机器人。

AI应用可观察性大型语言模型监控开源监控工具聊天机器人调试

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All开源项目 – 本地运行的开源语言模型

GPT4All是一款在本地运行的大型语言模型（LLM），最新发布了V3.0版本，支持多种模型架构，并与多种工具和平台集成。它基于LLaMa模型，使用约80万条GPT-3.5-Turbo生成的数据进行训练，支持多种类型的对话，包括代码和故事。GPT4All完全本地运行，确保数据隐私，支持Windows、MacOS、Ubuntu等操作系统，并具有改进的UI/UX。

Llama模型开源聊天机器人本地测试自定义模型训练

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE开源项目 – 为中文NLP定制的小样本学习测评基准

FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准，提供多种评测任务，支持各种模型和算法的评估，易于扩展和定制，旨在推动中文NLP研究的发展。

中文NLP小样本学习测评基准模型评估工具自定义评测任务

BakLLaVA开源项目 – 多模态能力增强的语言模型

BakLLaVA开源项目 – 多模态能力增强的语言模型

将SOTA多模态能力融入语言模型，改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。

多模态能力增强的语言模型模型性能优化自定义训练模型语言生成

Smousss官网 – 专为Laravel开发者打造的AI工具

Smousss是一个专为Laravel开发者设计的AI工具，旨在帮助处理遗留项目。它提供了一系列功能，包括使项目可翻译、生成缺失的Laravel Nova管理面板等。Smousss利用机器学习来自动化重复任务，从而提高开发者的工作效率。

AI自动化开发Laravel Nova管理面板生成器Laravel开发工具项目翻译工具

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3