TokenOCR开源项目 – 文档理解的文本图像基础模型

TokenOCR是一款面向文档理解的文本图像基础模型，旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT，包含2000万图像和18亿token-mask对，提出首个token级别的文本图像基础模型，支持多种下游任务。基于TokenOCR构建的TokenVL模型，在文档视觉问答任务中表现卓越。

TokenOCR的特点:

1. 首个token级别的图像文本数据集TokenIT，包含2000万图像和18亿token-mask对。
2. 提出首个token级别的文本图像基础模型，支持多种下游任务。
3. 基于TokenOCR构建的TokenVL模型，在文档视觉问答任务中表现卓越。

TokenOCR的功能:

1. 用于文档视觉问答任务，提升问答系统的准确性。
2. 支持多种下游任务，如文本识别、图像分类等。
3. 构建和训练token级别的文本图像基础模型，用于复杂的文档理解任务。

相关导航

Florence-VL开源项目 – 微软开源的多模态图像理解模型

Florence-VL是微软开源的多模态模型，具备强大的图像理解能力，能够从不同角度深入理解图片内容并给出准确回复。其核心在于升级的视觉编码器和深度-广度融合(DBFusion)机制，支持多层次、多方面的视觉特征捕获和融合，超越了传统的CLIP式视觉Transformer模型。

Pixtral-12B-2409模型 – 多模态图像文本处理模型

Pixtral-12B-2409 是 Mistral AI 开发的多模态模型，拥有12亿参数的解码器和4亿参数的视觉编码器，能够同时处理文本和图像。它支持128k长上下文，具备图像理解能力如OCR和视觉问答，支持中/英/日/韩等24种语言，满足全球化需求。该模型在多模态任务中表现优异，尤其在文档问答（DocVQA）和视觉问答（VQAv2）上领先，且可以在单张RTX 4090上运行，许可证为Apache 2.0。

DeepSeek-VL2开源项目 – 多模态视觉语言模型

DeepSeek-VL2是一个基于MoE架构和动态切图技术的先进视觉语言模型，旨在提升视觉能力并支持多种视觉任务。该模型在多模态理解方面取得了显著进展，特别是在视觉问题回答、光学字符识别、文档/表格/图表理解和视觉定位等任务上表现出色。

M3DOCRAG开源项目 – 多模态跨页文档问答框架

M3DOCRAG是一个免OCR、多模态、跨页检索的文档问答统一框架，旨在解决文档视觉问答（DocVQA）中的跨页和多模态信息处理问题。该框架包括文档嵌入、页面检索和问答三个阶段，支持封闭域和开放域文档问答。它使用ColPali进行文档嵌入，结合多模态语言模型（如Qwen2-VL）进行视觉问答，并通过Faiss进行高效的页面检索。

WorldRWKV开源项目 – 多模态理解与推理模型

WorldRWKV是一个基于纯RWKV7架构的模型，旨在实现任意模态的训练和推理，使模型能够轻松理解多种输入形式。它支持多种模态的输入（如视觉、语音）并输出文本，提供端到端的跨模态推理能力，性能卓越，例如在视觉问答任务中准确率高达78.30%。

LAVIS开源项目 – 多模态生成模型，支持多种任务

LAVIS是一个一站式的语言-视觉智能库，支持多种语言-视觉任务，集成多种预训练模型，提供简单易用的API，以及自定义模型的训练和评估，具备高效的推理速度和性能。

Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型，参数量为1.8B，能够在消费级显卡（如1080Ti）上训练和运行。它支持多种视觉语言任务，包括处理图片中的文字、图表、公式，以及对象检测、图像描述、视觉问答等，同时支持中英文。通过改进的视觉词汇表增强视觉感知能力，Vary-toy在多个数据集上的表现与7B级模型相当甚至更好，且计算开销更低。

BLIP开源项目 – 强大的图像-文本理解模型

BLIP (Bootstrapped Language-Image Pretraining) 是一款强大的图像-文本理解模型，能够根据图片内容自动生成高质量的描述文本。它结合视觉和语言模型，支持图像理解、文本生成、跨模态检索等功能，适用于图片字幕生成、视觉问答、智能搜索等场景。

Qwen-VL-强大的视觉语言模型

阿里巴巴云推出的专为聊天应用设计的强大的视觉语言模型，结合了图像和文本输入，能够生成准确的文本和边界框输出，增强了图像描述、问答、定位和文本-图像理解等任务的能力。

Awesome-Document-Understanding开源项目 – 文档理解研究资源库

AI文档理解相关文献资源列表，专注于文档人工智能（Document Artificial Intelligence）领域。该项目收集了大量关于文档理解的研究文献和资源，涵盖了文档人工智能的多个子领域，如OCR、文本分析、图像处理等。持续更新，保持与最新研究进展同步，提供了丰富的参考资料和工具链接，适合研究人员、开发者和学生使用。

Sensible Instruct官网 – 简化非结构化文档数据提取

Sensible Instruct是一个由GPT-4驱动的文档理解工具，旨在简化将非结构化文档转化为结构化数据的过程，适合开发者、数据科学家和业务运营经理等多种用户。

CogVLM开源项目 – 多模态视觉语言AI模型

CogVLM是一款结合视觉和语言的大型AI模型，专为多模态任务设计，能够分析图片内容并生成精准的文本描述、回答问题，甚至进行复杂的推理。它在多模态理解上表现优异，支持OCR识别、场景分析、细节描述等功能。CogVLM通过高效整合图像和文本处理能力，为开发者提供构建复杂AI系统的可靠工具，适用于智能问答、图片内容创作、智能搜索等多种应用场景。

olmOCR-mix-0225官网 – OCR模型训练数据集

olmOCR-mix-0225 是一个专为 OCR（光學字符識別）和文檔理解模型訓練設計的數據集，包含約 250,000 頁 PDF 文件，這些文件通過 gpt-4o-2024-08-06 轉換為純文本，保留了原始數字內容。數據集來源包括網絡爬取的 PDF 和互聯網檔案館的書籍，涵蓋多種類型文檔，如學術論文、宣傳冊和法律文件等，適用於訓練、微調或評估 OCR 文檔處理系統。數據集由 105,504 個唯一文檔和 266,135 頁組成，並提供了詳細的元數據和提取內容，支持多種 OCR 和文檔理解任務。

MobileVLM开源项目 – 移动设备上的多模态视觉语言模型

MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型，专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型，通过轻量级下采样投影器（LDP）实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异，推理速度快，适合在移动设备上运行。

Oscar开源项目 – 图像与文本语义对齐的AI模型

Oscar（Object-Semantics Aligned Pretraining）是一款能够根据图像内容生成精准文本描述的AI模型。它通过学习图像和文本之间的语义关系，能够理解图片中的对象、场景以及它们之间的关系，从而生成详细且符合语境的文字描述。Oscar不仅能进行图像描述，还可以用于视觉问答和跨模态检索，是跨领域图像与文本理解的有力工具。

暂无评论

暂无评论...