RQABench是一个开源的检索问答基准工具,旨在评估检索增强生成(RAG)系统,具有灵活性、可复现性和可追溯性等特点,支持多种RAG模型的评估并提供标准化的基准测试。
META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。
在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
Simon是一个基于Python的库,支持OCR、数据摄取、语义搜索、抽取式问答、文本推荐和AI聊天等功能。它是开源的(Apache 2.0),并且可以在Postgres实例上运行。
Aide.dev 是一款创新的AI工具,旨在提升开发者的编码体验,通过智能的代码补全和实时聊天支持,使编码过程更加高效和互动,同时确保代码隐私。
一个用于搭建类似Perplexity的问答引擎的项目,结合了多种先进的技术和模型。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
AutoRAG 是一个自动评估多种 RAG 模块的工具,旨在找到最适合你数据的方案,通过一键优化 RAG 流程,提升效率。
AURORA是一个免费的API,基于GPT-3.5模型,旨在提供易于集成和高效的文本生成服务,支持多种语言,适用于多种应用场景。
RankGPT是一个调查生成式LLM(如ChatGPT和GPT-4)在信息检索中的相关性排名能力的项目,旨在利用先进的生成模型提高信息检索的有效性。该项目引入NovelEval测试集以验证模型对未知知识的排名能力,并通过置换蒸馏方案将排名能力转化为小型专有模型,在BEIR基准测试中显示出优于传统监督模型的性能。
基于互信息的广义类别发现,旨在通过最大化互信息来解决广义范畴发现问题。该项目探索参数损失函数族,以评估特征和标签之间的互信息,并自动寻找最大化预测性能的损失函数。引入肘部最大质心移位(Emacs)技术,可以估计未标记集合中的类数,并在多个GCD场景下展现出通用性和竞争力,尤其在处理细粒度分类问题时表现出显著优势。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型