所有AI工具AI图像工具AI学习网站AI开发框架AI开源项目

ViTLP开源项目 – 视觉文档理解模型

ViTLP(Text-Layout Pre-training)是一种视觉文档理解(VDU)模型,能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案,有效地处理长文档,并...

标签:

AI交流(进群备注:ViTLP)

ViTLP(Text-Layout Pre-training)是一种视觉文档理解(VDU)模型,能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案,有效地处理长文档,并在微调中处理任意长度的文档。ViTLP解决了传统VDU模型依赖OCR管道和忽略布局信息的问题,提供了一种更高效的文档理解方式。

ViTLP的特点:

  • 1. 联合建模文本和布局信息
  • 2. 支持长文档处理
  • 3. 无需依赖OCR管道
  • 4. 提供预训练模型ViTLP-medium
  • 5. 支持文本定位和识别
  • 6. 推理速度快,内存占用低

ViTLP的功能:

  • 1. 使用预训练模型进行OCR文本定位和识别
  • 2. 微调模型以适应特定OCR数据集
  • 3. 使用合成文档工具生成带边界框元数据的文档
  • 4. 运行demo进行文档图像处理
  • 5. 批量解码文档图像

相关导航

暂无评论

暂无评论...