OCRmyPDF 是一款功能强大的开源命令行工具,专为处理图像PDF文件而设计。它通过Tesseract OCR引擎为扫描的PDF文件添加OCR文本层,使其可搜索和复制。支持超过100种语言,并能生成符合PDF/A标准的文档,适合长期存储。OCRmyPDF 还优化PDF图像,减少文件大小,修复倾斜页面,并支持多核处理,适用于处理大批量PDF文件。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型