Vary开源 – 文档级OCR与图表理解新方法

Vary是一种新的视觉识别方法，专注于文档级OCR和图表理解。它通过两个阶段生成并整合新的视觉词汇，首先设计词汇网络和小型解码器，通过自回归生成所需词汇，然后通过合并新词汇和原始词汇（CLIP）来扩展原始视觉词汇，使大型视觉语言模型（LVLMs）能够快速获取新特征。Vary在保持原有能力的同时，展现出更出色的细粒度感知和理解能力，尤其擅长识别表格和公式，并具备多模态推理能力。

Vary的特点:

1. 通过两个阶段生成并整合新的视觉词汇
2. 第一阶段：设计词汇网络和小型解码器，通过自回归生成所需词汇
3. 第二阶段：合并新词汇和原始词汇（CLIP）以扩展视觉词汇
4. 保持原有能力，同时提升细粒度感知和理解能力
5. 特别擅长识别表格和公式
6. 具备多模态推理能力

Vary的功能:

1. 实现文档级别的OCR
2. 理解图表内容
3. 识别表格和公式
4. 进行多模态推理
5. 用于计算机视觉和自然语言处理研究
6. 提升大型视觉语言模型对复杂视觉内容理解的应用

相关导航

RL-VLM-F开源项目 – 视觉语言基础模型反馈的强化学习

RL-VLM-F是一个结合视觉和语言的强化学习项目，通过利用基础模型的反馈进行学习，旨在优化多模态任务中的决策过程。

LaTeX-OCR开源项目 – 图像公式转LaTeX代码

LaTeX-OCR 是一个基于深度学习技术的开源项目，旨在将数学公式的图像转换为 LaTeX 代码。该项目使用 Vision Transformer (ViT) 模型，结合 ResNet 编码器和 Transformer 解码器，能够高效地识别和编辑数学公式，适用于科研、教育等领域。项目提供了多种使用方式，包括命令行工具、图形用户界面、API 和 Python 集成，并支持模型训练和自定义数据集。

Vision Parse开源项目 – 智能PDF转Markdown工具

将PDF文档转换为Markdown的智能工具，利用先进的视觉语言模型，能够精准识别并提取文本、表格和公式，保留文档格式和层次结构

DONUT开源项目 – 非OCR文档识别的Transformer技术

DONUT是一种非OCR方式的文档识别Transformer技术，性能和效果远超传统OCR技术，能够处理复杂的文档结构，包括表格和其他格式。

Llama Cookbook开源项目 – 一站式LLaMA模型开发指南

Llama Cookbook是一个全面的指南，旨在帮助开发者轻松掌握LLaMA模型的推理、微调以及端到端应用的开发，适合从初学者到高级用户。

olmOCR官网 – 高效提取PDF结构化内容

olmOCR 是一个端到端的 PDF 文档解析工具，结合视觉语言模型（VLM）和文档锚定技术，能够高效提取 PDF 文档中的结构化内容，如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型，显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架，能够高效处理大规模数据，并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计，能够保持自然阅读顺序，同时处理图形、手写文本和低质量扫描件。

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型

LLaMA-VID 是一种开源的多模态大模型，专门设计用于处理长时间的视频内容，如电影。它通过使用视觉语言模型（Vision Language Models, VLMs）来结合计算机视觉和自然语言处理，从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记（Token）来表示每一帧图像或视频：一个上下文标记（Context Token）用于编码整个图像或视频中最相关或最重要的部分，另一个内容标记（Content Token）用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息，并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频，并在多个视频榜单上实现了 SOTA（State of the Art）表现。

Advanced Literate Machinery开源项目 – 高级文档智能系统

Advanced Literate Machinery (ALM) 是阿里巴巴研究团队开发的一个高级文档智能系统，旨在赋予机器阅读、思考和创造的能力。项目当前专注于从图像和文档中提取信息，未来将探索让机器具备更高层次的智能。项目包含多个子模块，如OmniParser、Platypus、SceneVTG等，涵盖了文本识别、关键信息提取、表格识别、文档解析等多种功能。

CognAgent官网 – 专注于GUI理解和导航的视觉语言模型

CognAgent 是一个基于18亿参数的视觉语言模型（VLM），专注于图形用户界面（GUI）的理解和导航。它支持高分辨率图像（1120x1120像素），能够识别文本、图标、按钮等元素，并根据用户指令执行点击、滑动、输入等操作。CognAgent在多个跨模态基准测试和GUI操作数据集上表现出色，支持中文和英文双语交互，并且是一个开源项目。

MONAI Vision Language Models开源项目 – 致力于医学应用的视觉语言模型

一个致力于医学应用的视觉语言模型集合，旨在解决通用模型在医学领域的挑战，并与专家分割和分类模型集成。

localGPT-Vision开源项目 – 通过视觉模型与文档对话

localGPT-Vision是一个通过视觉语言模型与文档进行对话的项目，采用了端到端的检索增强生成（RAG）流程，支持本地和专有的视觉语言模型，旨在提高文档交互的效率和准确性。

CheXagent-用于胸部X光片解读的基础模型

CheXagent是一个基于视觉和语言的基础模型，专注于胸部X光片的解读，旨在解决医学图像领域中大规模视觉-语言数据集的有限性等挑战。该模型利用大规模的指令微调数据集CheXinstruct，设计了一个临床大型语言模型(LLM)和一个用于表示X射线图像的视觉编码器，同时连接视觉和语言模态的网络，提供了新的评估基准CheXbench用于系统评估。

R1-V开源项目 – 低成本高效的视觉语言模型训练方法

R1-V是一个开源视觉语言模型（VLM）项目，旨在通过强化学习和可验证奖励（RLVR）在极低成本（不到3美元）和短时间内（30分钟）实现超强泛化能力。该项目通过高效的训练方法和开源资源，显著提升了模型的性能，特别是在超出分布（OOD）测试中，2B模型在100个训练步骤后超越了72B模型的表现。

VLM-Captioning-Tools开源项目 – 自动为图片生成描述的工具

利用视觉语言模型（VLMs）为图片自动生成描述的工具，具备自动检测并解决重复序列标题失败的功能，支持多种脚本和模型。该工具旨在提升图像描述的质量与多样性，适用于多种应用场景，如社交媒体、内容创作等。