LLM评估平台

Confident AI官网 – 全能的LLM评估平台

Confident AI是一个综合性的LLM评估平台，提供14种以上的指标来运行LLM实验，管理数据集，监控并整合人类反馈，以自动改进LLM应用。它与DeepEval协作，支持任何用例。

DeepEval兼容LLM评估平台人类反馈整合数据集管理

VerifAI’s MultiLLM官网 – 开源框架并行调用LLM

VerifAI的MultiLLM是一个开源框架，通过并行调用多个大型语言模型（LLM）并对其输出进行排名，以找到最佳结果（真实值）。该框架可扩展以支持新的LLM和自定义排名函数，从而评估来自不同LLM的多样化输出。

多语言模型并行调用开源框架自定义排名函数

awesome-llm-list开源项目 – 大型语言模型资源的概述

awesome-llm-list开源项目 – 大型语言模型资源的概述

这是一个关于大型语言模型（LLM）选项的全面集合，提供了分类清晰的资源列表，便于用户查找和使用。该项目定期更新，包含新的模型和工具，同时接受社区贡献和建议。

LLM工具大型语言模型资源模型比较社区贡献

LLM-Agent-Survey开源项目 – 基于大型语言模型的自主智能体文献资源集

LLM-Agent-Survey开源项目 – 基于大型语言模型的自主智能体文献资源集

LLM-Agent-Survey是一个关于基于大型语言模型(LLM)的自主智能体的文献资源集，汇聚了最新的研究和应用，提供详细的文献综述与分析，支持多种LLM模型和框架的比较，包含自主智能体的设计与实现示例。

LLM智能体文献资源LLM模型比较技术趋势教育资源

SurfSense开源项目 – 智能助手，助你高效记录网络内容

SurfSense开源项目 – 智能助手，助你高效记录网络内容

SurfSense 是一款个人 AI 助手，旨在帮助用户记录和检索他们在互联网上看到的内容，包括社交媒体、聊天记录、日历邀请、重要邮件、教程和食谱等。通过跨浏览器扩展程序，它能提供便捷的记录与检索功能，支持本地 LLM，并且是开源的，用户可以选择自行部署。

AI助手内容记录在线检索开源项目

Xwin-LM开源项目 – 开源大型语言模型对齐技术

Xwin-LM开源项目 – 开源大型语言模型对齐技术

旨在开发并开源大型语言模型的对齐技术，包括监督微调(SFT)、奖励模型(RM)、拒绝采样和人类反馈强化学习(RLHF)等。

人类反馈强化学习大型语言模型对齐技术奖励模型监督微调

Chat UI开源项目 – 为LLM应用提供定制聊天界面

Chat UI开源项目 – 为LLM应用提供定制聊天界面

Chat UI是为大型语言模型（LLM）应用设计的聊天界面组件库，提供预构建的聊天组件，支持高度定制化，易于与各种LLM后端进行集成，帮助开发者快速构建用户友好的聊天界面。

LLM应用集成聊天界面组件库高度定制化聊天组件

Log10官网 – 提升大型语言模型的准确性

Log10 AI 是一款开创性的工具，通过先进的 AI 技术提升大型语言模型的性能，专注于优化模型的准确性和可靠性，特别适用于 AI 开发者和企业。

AI开发者工具AI性能优化工具医疗AI系统可靠性大型语言模型准确性提升

llama2.scala开源项目 – Scala 2下的Llama 2推理实现

llama2.scala开源项目 – Scala 2下的Llama 2推理实现

llama2.scala是Andrej Karpathy的llama2.c在Scala 2中的移植，提供了一种在一个文件中实现Llama 2推理的方式。

AI模型推理Andrej Karpathy移植Llama 2推理实现Scala 2

Adaptive官网 – 提升企业AI能力的先进工具

Adaptive是一个先进的AI工具，旨在改变企业利用大型语言模型（LLMs）的方式。它提供了一整套工具，通过强化学习技术对开放模型进行微调和部署，增强其性能，确保满足特定的业务需求，同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。

AI工具企业AI能力提升强化学习数据隐私保护

OtterHD开源项目 – 多模态上下文指令调优平台

OtterHD开源项目 – 多模态上下文指令调优平台

MIMIC-IT：多模态上下文指令调优，展示了一个包含 280 万个多模态指令-响应对的数据集，以及从图像和视频中派生的 220 万个独特指令。

多模态学习多模态指令调优平台指令响应生成训练和评估多模态模型

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench开源项目 – 评估语言模型能力的基准工具

AgentBench是一个多维演进基准，评估语言模型作为Agent的能力，包含8个不同环境，专注于LLM在多轮开放式生成场景中的推理和决策能力。

LLM性能比较多轮对话能力评估语言模型评估工具

Data Provenance Collection开源项目 – 提升AI训练数据集的透明性

Data Provenance Collection开源项目 – 提升AI训练数据集的透明性

该项目旨在提高AI训练数据集的透明性、文档化和负责任使用，详细记录数据集的来源和元数据，确保数据在使用过程中的合法性和合规性。

AI训练数据集数据合规性数据来源记录数据集透明性

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3