pdf-document-layout-analysis开源项目 – PDF文档布局分析与OCR服务
该项目是一个基于Docker的PDF文档布局分析与OCR服务,提供强大的PDF分析功能。它能够对PDF页面进行OCR、分割和分类,识别文本、标题、图片、表格等元素,并确定这些元素的正确顺序。项目支持高性能视觉模型(Vision Grid Transformer)和快速轻量级模型(LightGBM)两种模式,适用于不同资源需求的场景。此外,它还支持表格和公式的多种格式提取(如Markdown、LaTeX、HTML等),并可通过Tesseract OCR支持多种语言的文本识别。