ViTLP(Text-Layout Pre-training)是一种视觉文档理解(VDU)模型,能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案,有效地处理长文档,并在微调中处理任意长度的文档。ViTLP解决了传统VDU模型依赖OCR管道和忽略布局信息的问题,提供了一种更高效的文档理解方式。