文本检索

Late Chunking开源项目 – 长文本分块嵌入优化

Late Chunking开源项目 – 长文本分块嵌入优化

Late Chunking 是 JinaAI 发布的一种用于处理长文本的嵌入生成方法，通过延迟分块策略解决长距离上下文依赖性问题。该方法首先对整个文本进行编码，生成包含全局信息的 token 向量序列，然后对这些向量进行分块平均池化，生成具有上下文感知的 chunk 嵌入。该技术特别适用于长文本的语义匹配任务，如 RAG（Retrieval Augmented Generations）系统，能够显著提升文本检索的准确性。

RAG系统文本检索语义匹配长文本分块嵌入优化

Haystack Cookbook开源项目 – 自然语言处理示例集合

Haystack Cookbook开源项目 – 自然语言处理示例集合

Haystack Cookbook是一个使用Haystack进行自然语言处理的示例集合，提供如何结合不同的模型提供者、向量数据库、检索技术等的指导。大多数示例展示特定小型演示，旨在帮助用户快速上手和扩展他们的NLP项目。

HaystackNLP技术信息提取向量数据库

Pgvector开源项目 – Postgres 的开源向量相似性搜索

Pgvector开源项目 – Postgres 的开源向量相似性搜索

Pgvector 是一个为 PostgreSQL 提供向量相似性搜索的开源扩展，能够高效处理大规模数据集，支持多种距离度量，并与 PostgreSQL 无缝集成，提供简单易用的 API。

PostgreSQL扩展向量相似性搜索图像文本相似性比较机器学习推荐系统

NanoDB开源项目 – 高效的多模态向量数据库

NanoDB开源项目 – 高效的多模态向量数据库

NanoDB 是一个使用 CUDA 和 CLIP/SigLIP 的零拷贝多模态向量数据库，旨在实现高效的图像和文本相似性搜索。通过结合高性能计算和先进的模型，NanoDB 能够快速处理和检索多模态数据，极大地提高了数据传输的效率。

图像和文本相似性搜索多模态向量数据库机器学习集成零拷贝技术

GenAI Showcase开源项目 – 生成式AI用例项目库

GenAI Showcase开源项目 – 生成式AI用例项目库

MongoDB开发的生成式AI用例项目库，包含RAG(检索增强生成)、AI代理、行业特定应用等多个实用示例。提供了与MongoDB集成的完整解决方案，包括向量数据库、操作数据库和记忆提供者等功能，支持LlamaIndex、Haystack和LangChain等主流框架的集成应用。

AI代理MongoDB集成向量数据库数据存储与检索

myGPTBrain官网 – 智能化文档处理与问答工具

myGPTBrain是一个高效的工具，允许用户无缝上传PDF、Word文档、Excel表格，并能连接Google Drive和Notion等资源。通过分析用户上传的内容，myGPTBrain能够提供基于文档内容的上下文丰富的回答，帮助用户快速获取所需信息。

Excel数据分析PDF上传云端存储集成文档处理工具

eLLMo – Enterprise Lg Language Model Ops-专注隐私的企业级语言模型

eLLMo是一个专属的私有大型语言模型，旨在保护客户数据的隐私。它利用增强检索生成（RAG）技术，能够回答客户数据和文档上的问题，打破团队间的信息孤岛。该解决方案可在本地部署，确保数据安全与合规。

企业级语言模型增强检索生成技术安全语言处理数据隐私保护

Headless Vector Search开源项目 – 用于知识库的向量相似性搜索工具

Headless Vector Search开源项目 – 用于知识库的向量相似性搜索工具

一个Supabase工具包，用于在知识库嵌入向量上执行相似性搜索，支持灵活的无头设计，方便集成到现有网站中。

Supabase工具包向量相似性搜索工具知识库集成

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3