评估检索增强生成系统

Retrieval-QA-Benchmark开源项目 – 评估检索增强生成系统的工具

Retrieval-QA-Benchmark开源项目 – 评估检索增强生成系统的工具

RQABench是一个开源的检索问答基准工具，旨在评估检索增强生成(RAG)系统，具有灵活性、可复现性和可追溯性等特点，支持多种RAG模型的评估并提供标准化的基准测试。

RAG模型评估开源项目检索问答基准工具评估检索增强生成系统

CRAG开源项目 – 综合性RAG基准测试工具

CRAG开源项目 – 综合性RAG基准测试工具

META发布的综合性RAG基准测试工具，专门用于评估检索增强生成(RAG)系统的性能。

RAG基准测试工具性能评估知识图谱搜索自动化评估

为语言模型的事实性评估生成基准数据集-评估语言模型生成事实性的能力

在部署语言模型前，评估其在特定领域生成事实性信息的能力很重要。我们提出了方法，通过语料库转换自动生成，以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准，并发现基准分数与模型大小和检索增强相关，但在模型排名上并不总是与困惑度一致。

基准数据集生成模型性能评估生成准确性优化语言模型事实性评估

Simon官网 – 强大的语义搜索库

Simon是一个基于Python的库，支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的（Apache 2.0），并且可以在Postgres实例上运行。

AI聊天OCR开源项目抽取式问答

Aide.dev官网 – AI驱动的编程助手

Aide.dev 是一款创新的AI工具，旨在提升开发者的编码体验，通过智能的代码补全和实时聊天支持，使编码过程更加高效和互动，同时确保代码隐私。

AI驱动的编程助手VSCode集成实时聊天支持开源AI模型

llm-answer-engine开源项目 – 搭建问答引擎的项目

llm-answer-engine开源项目 – 搭建问答引擎的项目

一个用于搭建类似Perplexity的问答引擎的项目，结合了多种先进的技术和模型。

LangChainOpenAI Embedding大语言模型教程视频

GPQA-高难度的研究生级问答基准

Graduate-Level Google-Proof Q&A Benchmark，是一个评估大型语言模型和可扩展监督机制能力的高难度数据集，包含448道选择题，旨在测试专家的准确率。

大型语言模型评估研究生级测试集高难度问答基准

AutoRAG开源项目 – 一键优化 RAG 流程

AutoRAG开源项目 – 一键优化 RAG 流程

AutoRAG 是一个自动评估多种 RAG 模块的工具，旨在找到最适合你数据的方案，通过一键优化 RAG 流程，提升效率。

YAML配置工具一键优化RAG流程自动评估RAG模块跨平台部署

AURORA开源项目 – 免费的GPT3.5 API

AURORA开源项目 – 免费的GPT3.5 API

AURORA是一个免费的API，基于GPT-3.5模型，旨在提供易于集成和高效的文本生成服务，支持多种语言，适用于多种应用场景。

免费GPT-3.5 API创意写作文本生成服务智能问答系统

RankGPT开源项目 – 提升信息检索的相关性排名

RankGPT开源项目 – 提升信息检索的相关性排名

RankGPT是一个调查生成式LLM（如ChatGPT和GPT-4）在信息检索中的相关性排名能力的项目，旨在利用先进的生成模型提高信息检索的有效性。该项目引入NovelEval测试集以验证模型对未知知识的排名能力，并通过置换蒸馏方案将排名能力转化为小型专有模型，在BEIR基准测试中显示出优于传统监督模型的性能。

BEIR基准测试信息检索相关性排名小型专有模型生成式LLM

Mutual Information-Based GCD开源项目 – 通过最大化互信息解决类别发现问题

Mutual Information-Based GCD开源项目 – 通过最大化互信息解决类别发现问题

基于互信息的广义类别发现，旨在通过最大化互信息来解决广义范畴发现问题。该项目探索参数损失函数族，以评估特征和标签之间的互信息，并自动寻找最大化预测性能的损失函数。引入肘部最大质心移位(Emacs)技术，可以估计未标记集合中的类数，并在多个GCD场景下展现出通用性和竞争力，尤其在处理细粒度分类问题时表现出显著优势。

Emacs技术互信息最大化参数损失函数类别发现

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3