LayoutReader 是基于 LayoutLMv3 的先进模型,专门用于将 OCR 识别出的文本框按照阅读顺序进行排序。该模型在处理速度上进行了优化,能够快速处理多种文档布局,提升文档的可读性和处理效率。LayoutReader 可以广泛应用于需要文档布局分析的场景,并能够无缝集成到现有的文档处理流程中,为自动化文档内容提取和排序提供强大支持。
M6Doc是用于现代文档布局分析研究的数据集,包含9,080张现代文档图像,涵盖科学文章、教材、试卷、杂志、报纸、笔记和书籍等七个子集,提供了多样的数据来源和详细的文档布局标注标签。
基于Rust语言实现的多语言文档OCR工具包,结合修改版Segformer、OpenCV和donut transformer,提供高效的文档识别与处理功能。
Gogosseract,一个通过 Wazero 实现的无 CGo Tesseract OCR 的 Go Lib。它提供高效的光学字符识别功能,支持多种语言,易于集成到各种 Go 应用程序中。
LLM-Aided OCR 是一个基于大型语言模型(LLM)的开源工具,旨在通过结合光学字符识别(OCR)和LLM的纠错功能,将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成,包括本地LLM和云端API,适用于需要将扫描文档高质量数字化的场景。
用Rust编写的现代OCR引擎,可以作为一个命令行工具和库来使用,目标是创建一个在各种图像上都能良好运行的OCR引擎,包括扫描文档、包含文本的照片和屏幕截图等,较之前的引擎如Tesseract,需要更少的预处理工作。
WebPDF是一个强大的API,用于PDF文件的操作。它支持从简单的提取图像、文本,合并或拆分文件,到压缩、OCR以及不同格式之间的转换。用户还可以从实时网站或HTML文件生成PDF。
上海人工智能实验室开源的PDF文档提取工具,能够将PDF转化为机器可读格式(如markdown、json),方便地抽取为任意格式。
iTextMaster是一款基于ChatGPT的PDF工具,旨在快速阅读和与PDF进行智能对话。同时,它还支持在线网页摘要和聊天功能。
PDF Guru是一个多功能的PDF文件处理工具,支持本地化操作,提供合并、拆分、旋转、水印、加密等20余项功能,界面简洁,跨平台使用,完全开源免费。
MiniCPM-V 是一款拥有 8B 参数的先进 AI 模型,性能优于 GPT-4V 等顶级型号,提供卓越的 OCR 功能,并支持 30 多种语言。它是一个强大的端侧多模态大语言模型,在单图像、多图像和视频理解方面超越了 GPT-4V,支持在 iPad 等终端设备上进行实时视频理解。MiniCPM-V 2.0 是一个高效的端侧多模态大模型,具有强大的 OCR 和图文理解能力,并且是一个开源项目。
PDNob Image Translator是一款创新的AI驱动工具,利用先进的AI-OCR技术,无缝翻译图像中的文本,支持100多种语言,处理数据在本地进行,确保用户隐私。
一款强大且可离线使用的OCR工具,支持多种视觉模型,并能够处理多种文件格式输出。