CocoIndex 是一个开源的数据提取、转换和索引引擎,专为AI应用设计,支持自定义转换逻辑和增量更新。它提供从多种数据源(如Web、云存储、API)摄取数据的能力,支持PDF、Markdown等多种文件格式的解析,并能将数据索引到图存储、向量存储等多种数据库中。项目内置血统追踪和可观察性功能,适合生产环境的大规模数据处理,尤其适用于语义搜索和检索增强生成(RAG)等场景。