AI交流(进群备注:ViTLP)

ViTLP(Text-Layout Pre-training)是一种视觉文档理解(VDU)模型,能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案,有效地处理长文档,并在微调中处理任意长度的文档。ViTLP解决了传统VDU模型依赖OCR管道和忽略布局信息的问题,提供了一种更高效的文档理解方式。
ViTLP的特点:
- 1. 联合建模文本和布局信息
- 2. 支持长文档处理
- 3. 无需依赖OCR管道
- 4. 提供预训练模型ViTLP-medium
- 5. 支持文本定位和识别
- 6. 推理速度快,内存占用低
ViTLP的功能:
- 1. 使用预训练模型进行OCR文本定位和识别
- 2. 微调模型以适应特定OCR数据集
- 3. 使用合成文档工具生成带边界框元数据的文档
- 4. 运行demo进行文档图像处理
- 5. 批量解码文档图像
相关导航
暂无评论...