文本布局联合建模

ViTLP（Text-Layout Pre-training）是一种视觉文档理解（VDU）模型，能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案，有效地处理长文档，并在微调中处理任意长度的文档。ViTLP解决了传统VDU模型依赖OCR管道和忽略布局信息的问题，提供了一种更高效的文档理解方式。

OCR替代方案文本布局联合建模视觉文档理解模型长文档处理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。