OCR工具

Phi-3.5-vision模型 – 轻量级多模态AI模型

Phi-3.5-vision是由微软开发的开源多模态模型，专注于文本和视觉数据处理。它基于合成数据和精选公开数据构建，支持128K上下文长度，通过监督微调和直接偏好优化提升指令遵循和安全性。该模型参数量为42亿，包含图像编码器、连接器、投影器和Phi-3 Mini语言模型，训练数据达5000亿令牌，适用于内存/计算受限环境。

OCR工具图表理解多模态AI模型视频摘要生成

诚华OCR官网 – 免费在线OCR工具

诚华OCR是一款专业的在线OCR工具，支持多种文件格式转换，无需注册登录，每天免费转换10页，文件大小不超过10MB。该工具利用OCR技术将扫描的纸质文档、PDF文件或数码相机拍摄的图片转换为可编辑的文档，如Microsoft Word、Excel、PowerPoint等。

OCR工具PDF转Word图片转Excel文件格式转换

Llama OCR开源项目 – 免费OCR工具

Llama OCR开源项目 – 免费OCR工具

Llama OCR 是一个基于 Llama 3.2 Vision 模型的 npm 库，用于免费执行 OCR（光学字符识别）。它能够将图像或 PDF 文档转换为 Markdown 格式，简化了文字提取和格式化的过程。该工具由 Together AI 的 Llama 3.2 Vision 模型驱动，支持多种文档内容的高精度识别，并且可以通过 npm 包轻松集成到开发项目中。

OCR工具PDF转Markdown图像转Markdown开发集成

pytesseract开源项目 – Python的Tesseract OCR封装

pytesseract开源项目 – Python的Tesseract OCR封装

pytesseract是一个Python库，封装了Google的Tesseract OCR引擎，使开发者能够在Python中轻松实现光学字符识别（OCR）功能。它支持多种图像格式，允许配置Tesseract参数以定制OCR过程，并可以批量处理多张图像。此外，pytesseract与Python的PIL/Pillow等图像处理库无缝集成，便于在OCR前对图像进行预处理。

Google Tesseract封装OCR工具Python库图像文本提取

PDFtoPDF官网 – 先进的OCR工具，精准转换文本

PDFtoPDF是一个先进的OCR工具，专为深度学习和内容分析而设计。它能够准确识别和转换扫描书籍中的文本，精确恢复原始格式，如标题和高亮部分。

OCR工具内容分析文本转换深度学习

TurboLens官网 – 一体化OCR工具，快速生成洞察

TurboLens是一款全功能OCR工具，能够从图像和文本中生成洞察，支持手写文本、表格和翻译，凭借AI驱动的准确性和速度，简化工作流程。

AI驱动的工具OCR工具实时翻译手写文本识别

STranslate开源项目 – 强大的翻译与OCR工具

STranslate开源项目 – 强大的翻译与OCR工具

一款开箱即用的翻译和 OCR 工具，支持多种翻译方式和多家翻译服务。

OCR工具TTS功能多语言支持实时翻译

Swish Scan : PDF Scanner官网 – 便捷的网页PDF扫描与OCR工具

Swish Scan是一个基于网页的PDF扫描和OCR工具，允许用户使用摄像头即时捕捉文档，并支持多语言文本提取。

OCR工具PDF扫描工具文档数字化

Paperless-ngx开源项目 – 开源文档管理系统，减少纸张使用

Paperless-ngx开源项目 – 开源文档管理系统，减少纸张使用

一个开源的文档管理系统，可以将你的物理文档转换成可搜索的在线档案，从而减少纸张的使用。

OCRPDF/A格式全文搜索开源文档管理系统

Inky Notion官网 – 轻松将纸质笔记转为Notion页面

Inky Notion是一款能够将纸质笔记轻松转换为Notion页面的工具。用户只需在纸上书写，然后拍照，Inky便会将这些文字转化为美观的Notion页面，安全存储并便于搜索。这是减少屏幕时间的好方法，适合记录创意、日记等。

Notion页面转换笔记管理工具纸质笔记转数字工具

V7 Go官网 – 自动化文档处理的AI工具

V7 Go利用生成性AI技术自动化任务和文档处理，帮助企业高效、可靠地将图像和文档转化为结构化数据，从而减轻后勤工作的负担，让企业专注于更重要的事务。

企业效率提升图像转化为结构化数据生成性AI技术自动化文档处理

xDesk官网 – 高效的数据组织与保护工具

xDesk是一款生产力工具，帮助用户组织数据，通过面部识别保护数据，录制和注释音频，扫描文档并转换为可搜索的PDF文件，拍摄并注释照片，以及创建自定义项目。

数据组织工具文档扫描与转换自定义项目模板面部识别数据保护

OCR Magic官网 – 先进的文字识别应用

OCR Magic是一款支持几乎所有语言的高级文本识别应用，利用光学字符识别技术，能够将图像和文档中的文本扫描并转换为可编辑和可搜索的数字文本。

OCR应用PDF创建可编辑文本图像转换

OLOCR官网 – 在线OCR服务，支持无限次文本提取

OLOCR是一个在线OCR服务，提供无限次的图像和PDF文本提取。用户只需将文件上传至平台，即可轻松提取文本。

PDF处理图像处理在线OCR服务文本提取

Intics官网 – 加速文档处理，瞬间转化数据为见解

Intics是一款强大的文档处理工具，能够理解和捕捉任何格式的文本（包括印刷体和手写体）、表格、图片、商标、照片或地图。支持文档、PDF或图像等多种格式，助力用户快速提取信息并实现数据转化。

PDF处理信息提取手写体识别数据转化

Paperless-ngx开源项目 – 强大的在线文档管理系统

Paperless-ngx开源项目 – 强大的在线文档管理系统

一款功能强大的文档管理系统，能够将纸质文档转换成在线可搜索的文档，并进行分类和索引，方便随时搜索查阅。

OCR技术全文搜索多用户权限文档管理系统

papermerge.com官网 – 开源的文档管理系统

Papermerge DMS 是一个免费的开源文档管理系统，具备光学字符识别（OCR）功能，能够自动提取、分析和索引文档中的文本内容。用户只需在服务器或云平台上安装该系统，即可上传扫描文件、数字档案、PDF、TIFF、JPEG等格式的文档。

光学字符识别开源文档管理系统文档搜索文档索引

Ripcord官网 – 文档管理的革命性平台

Ripcord 是一个将传统文档管理转变为动态数据强大的平台，利用先进的机器人技术和人工智能将纸质和数字文档转换为可操作、可访问且高准确度的数据，帮助组织优化文档驱动的流程，挖掘数据利用的新机会。

AI文档分类云平台数据分析企业解决方案数据数字化

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3