AI交流(进群备注:DocLayout-YOLO-DocStructBench)

DocLayout-YOLO-DocStructBench 是一个基于 YOLO-v10 的文档布局检测模型,由上海 AI 实验室开发。该模型通过多样化文档预训练和结构优化,实现了对各种文档类型的实时鲁棒检测。预训练阶段采用 Mesh-candidate BestFit 算法生成 DocSynth-300K 数据集,显著提升了模型在不同文档类型上的微调性能。该模型适用于文档理解任务,如提取文本、图像和表格等。
DocLayout-YOLO-DocStructBench的特点:
- 1. 多样化文档预训练:使用 Mesh-candidate BestFit 算法生成 DocSynth-300K 数据集。
- 2. 结构优化:引入 Global-to-Local Controllable Receptive Module,处理多尺度文档元素。
- 3. 实时性能:在多个数据集上保持高推理速度(85.5 FPS)。
- 4. 多模态支持:增强对文本、图像和表格等元素的检测能力。
DocLayout-YOLO-DocStructBench的功能:
- 1. 文档理解任务:提取文档中的文本、图像和表格等内容。
- 2. 推理过程:通过 Hugging Face 提供的模型文件进行推理。
- 3. 批量推理:支持批量处理大量文档。
- 4. 在线演示:在 Hugging Face Space 上提供示例和演示。
相关导航
暂无评论...