AI交流(进群备注:PDF Craft)

PDF Craft是一个专注于处理扫描书籍PDF的开源工具,能将PDF文件高效转换为Markdown或EPUB格式。
它通过本地AI模型(如DocLayout-YOLO、OnnxOCR)实现文本提取、页眉页脚过滤、跨页文本衔接,
并支持集成LLM(如DeepSeek)进行书籍结构化处理、OCR纠错和注释优化。适合论文、书籍等文档转换,
提供从本地处理到云端LLM协同的多层次解决方案。
PDF Craft的特点:
- 1. 智能提取PDF文本,过滤页眉/页脚/页码等无关元素
- 2. 支持跨页文本自动衔接,保持语义连贯性
- 3. 本地AI模型运行(CPU/GPU加速),无需联网基础功能
- 4. 可选LLM集成(如DeepSeek)实现书籍结构化与OCR纠错
- 5. 多OCR重复识别提升模糊文本处理质量
- 6. 自动处理插图/表格/公式,保留原始布局
- 7. 生成带目录/章节/注释的EPUB文件
- 8. 支持中断恢复和高级LLM参数调优
PDF Craft的功能:
- 1. 学术论文PDF转Markdown(纯本地处理)
- 2. 扫描书籍PDF转EPUB(需LLM服务)
- 3. 批量处理图书馆电子文档
- 4. 技术手册格式转换与结构化整理
- 5. 通过多OCR识别提高古籍扫描件转换精度
- 6. 结合LLM实现自动目录生成与内容校对
相关导航
暂无评论...