基于Rust语言实现的多语言文档OCR工具包,结合修改版Segformer、OpenCV和donut transformer,提供高效的文档识别与处理功能。
Gogosseract,一个通过 Wazero 实现的无 CGo Tesseract OCR 的 Go Lib。它提供高效的光学字符识别功能,支持多种语言,易于集成到各种 Go 应用程序中。
LLM-Aided OCR 是一个基于大型语言模型(LLM)的开源工具,旨在通过结合光学字符识别(OCR)和LLM的纠错功能,将扫描的PDF文件转换为高准确度、格式正确且易于阅读的Markdown文档。该工具支持多种大语言模型的集成,包括本地LLM和云端API,适用于需要将扫描文档高质量数字化的场景。
用Rust编写的现代OCR引擎,可以作为一个命令行工具和库来使用,目标是创建一个在各种图像上都能良好运行的OCR引擎,包括扫描文档、包含文本的照片和屏幕截图等,较之前的引擎如Tesseract,需要更少的预处理工作。
WebPDF是一个强大的API,用于PDF文件的操作。它支持从简单的提取图像、文本,合并或拆分文件,到压缩、OCR以及不同格式之间的转换。用户还可以从实时网站或HTML文件生成PDF。
上海人工智能实验室开源的PDF文档提取工具,能够将PDF转化为机器可读格式(如markdown、json),方便地抽取为任意格式。
iTextMaster是一款基于ChatGPT的PDF工具,旨在快速阅读和与PDF进行智能对话。同时,它还支持在线网页摘要和聊天功能。
PDF Guru是一个多功能的PDF文件处理工具,支持本地化操作,提供合并、拆分、旋转、水印、加密等20余项功能,界面简洁,跨平台使用,完全开源免费。
MiniCPM-V 是一款拥有 8B 参数的先进 AI 模型,性能优于 GPT-4V 等顶级型号,提供卓越的 OCR 功能,并支持 30 多种语言。它是一个强大的端侧多模态大语言模型,在单图像、多图像和视频理解方面超越了 GPT-4V,支持在 iPad 等终端设备上进行实时视频理解。MiniCPM-V 2.0 是一个高效的端侧多模态大模型,具有强大的 OCR 和图文理解能力,并且是一个开源项目。
PDNob Image Translator是一款创新的AI驱动工具,利用先进的AI-OCR技术,无缝翻译图像中的文本,支持100多种语言,处理数据在本地进行,确保用户隐私。
一款强大且可离线使用的OCR工具,支持多种视觉模型,并能够处理多种文件格式输出。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型