所有AI工具AI办公工具AI图像工具AI开源项目

OCRmyPDF开源项目 – 为PDF添加OCR文本层的开源工具

OCRmyPDF 是一款功能强大的开源命令行工具,专为处理图像PDF文件而设计。它通过Tesseract OCR引擎为扫描的PDF文件添加OCR文本层,使其可搜索和复制。支持超过100种语言,并能生成...

标签:

AI交流(进群备注:OCRmyPDF)

OCRmyPDF 是一款功能强大的开源命令行工具,专为处理图像PDF文件而设计。它通过Tesseract OCR引擎为扫描的PDF文件添加OCR文本层,使其可搜索和复制。支持超过100种语言,并能生成符合PDF/A标准的文档,适合长期存储。OCRmyPDF 还优化PDF图像,减少文件大小,修复倾斜页面,并支持多核处理,适用于处理大批量PDF文件。

OCRmyPDF的特点:

  • 1. 生成可搜索的PDF/A文件
  • 2. 将OCR文本精确放置在图像下方,便于复制和粘贴
  • 3. 保持原始图像的分辨率
  • 4. 优化PDF图像,减少文件大小
  • 5. 支持多语言识别,使用Tesseract OCR引擎
  • 6. 修复倾斜页面,自动校正图像
  • 7. 支持多核处理,高效处理大批量文件
  • 8. 生成符合PDF/A标准的文档,适合长期存储

OCRmyPDF的功能:

  • 1. 为PDF文件添加OCR层并转换为PDF/A格式:`ocrmypdf input.pdf output.pdf`
  • 2. 将图像转换为单页PDF并添加OCR层:`ocrmypdf input.jpg output.pdf`
  • 3. 为文件原地添加OCR层(仅在成功时修改文件):`ocrmypdf myfile.pdf myfile.pdf`
  • 4. 使用非英语语言进行OCR:`ocrmypdf -l fra LeParisien.pdf LeParisien.pdf`
  • 5. 处理多语言文档:`ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf`
  • 6. 修复倾斜页面:`ocrmypdf –deskew input.pdf output.pdf`

相关导航

暂无评论

暂无评论...