AI交流(进群备注:OCRmyPDF)

OCRmyPDF 是一款功能强大的开源命令行工具,专为处理图像PDF文件而设计。它通过Tesseract OCR引擎为扫描的PDF文件添加OCR文本层,使其可搜索和复制。支持超过100种语言,并能生成符合PDF/A标准的文档,适合长期存储。OCRmyPDF 还优化PDF图像,减少文件大小,修复倾斜页面,并支持多核处理,适用于处理大批量PDF文件。
OCRmyPDF的特点:
- 1. 生成可搜索的PDF/A文件
- 2. 将OCR文本精确放置在图像下方,便于复制和粘贴
- 3. 保持原始图像的分辨率
- 4. 优化PDF图像,减少文件大小
- 5. 支持多语言识别,使用Tesseract OCR引擎
- 6. 修复倾斜页面,自动校正图像
- 7. 支持多核处理,高效处理大批量文件
- 8. 生成符合PDF/A标准的文档,适合长期存储
OCRmyPDF的功能:
- 1. 为PDF文件添加OCR层并转换为PDF/A格式:`ocrmypdf input.pdf output.pdf`
- 2. 将图像转换为单页PDF并添加OCR层:`ocrmypdf input.jpg output.pdf`
- 3. 为文件原地添加OCR层(仅在成功时修改文件):`ocrmypdf myfile.pdf myfile.pdf`
- 4. 使用非英语语言进行OCR:`ocrmypdf -l fra LeParisien.pdf LeParisien.pdf`
- 5. 处理多语言文档:`ocrmypdf -l eng+fra Bilingual-English-French.pdf Bilingual-English-French.pdf`
- 6. 修复倾斜页面:`ocrmypdf –deskew input.pdf output.pdf`
相关导航
暂无评论...