所有AI工具AI学习网站AI对话工具AI开发框架AI开源项目

M3DOCRAG开源项目 – 多模态跨页文档问答框架

M3DOCRAG是一个免OCR、多模态、跨页检索的文档问答统一框架,旨在解决文档视觉问答(DocVQA)中的跨页和多模态信息处理问题。该框架包括文档嵌入、页面检索和问答三个阶段,支持封...

标签:

AI交流(进群备注:M3DOCRAG)

M3DOCRAG是一个免OCR、多模态、跨页检索的文档问答统一框架,旨在解决文档视觉问答(DocVQA)中的跨页和多模态信息处理问题。该框架包括文档嵌入、页面检索和问答三个阶段,支持封闭域和开放域文档问答。它使用ColPali进行文档嵌入,结合多模态语言模型(如Qwen2-VL)进行视觉问答,并通过Faiss进行高效的页面检索。

M3DOCRAG的特点:

  • 1. 多模态文档检索使用ColPali
  • 2. 视觉问答使用Qwen2-VL
  • 3. 支持多页PDF文档
  • 4. 高效的FAISS索引用于快速检索
  • 5. 优化多GPU环境
  • 6. 交互式命令行界面

M3DOCRAG的功能:

  • 1. 启动交互式shell
  • 2. 初始化系统
  • 3. 添加PDF文档
  • 4. 构建搜索索引
  • 5. 提出问题
  • 6. 列出已加载文档
  • 7. 退出系统

相关导航

暂无评论

暂无评论...