所有AI工具AI办公工具AI学习网站AI开源项目

PDF Craft开源项目 – PDF转Markdown/EPUB的智能工具

PDF Craft是一个专注于处理扫描书籍PDF的开源工具,能将PDF文件高效转换为Markdown或EPUB格式。 它通过本地AI模型(如DocLayout-YOLO、OnnxOCR)实现文本提取、页眉页脚过滤、跨页...

标签:

AI交流(进群备注:PDF Craft)

PDF Craft是一个专注于处理扫描书籍PDF的开源工具,能将PDF文件高效转换为Markdown或EPUB格式。
它通过本地AI模型(如DocLayout-YOLO、OnnxOCR)实现文本提取、页眉页脚过滤、跨页文本衔接,
并支持集成LLM(如DeepSeek)进行书籍结构化处理、OCR纠错和注释优化。适合论文、书籍等文档转换,
提供从本地处理到云端LLM协同的多层次解决方案。

PDF Craft的特点:

  • 1. 智能提取PDF文本,过滤页眉/页脚/页码等无关元素
  • 2. 支持跨页文本自动衔接,保持语义连贯性
  • 3. 本地AI模型运行(CPU/GPU加速),无需联网基础功能
  • 4. 可选LLM集成(如DeepSeek)实现书籍结构化与OCR纠错
  • 5. 多OCR重复识别提升模糊文本处理质量
  • 6. 自动处理插图/表格/公式,保留原始布局
  • 7. 生成带目录/章节/注释的EPUB文件
  • 8. 支持中断恢复和高级LLM参数调优

PDF Craft的功能:

  • 1. 学术论文PDF转Markdown(纯本地处理)
  • 2. 扫描书籍PDF转EPUB(需LLM服务)
  • 3. 批量处理图书馆电子文档
  • 4. 技术手册格式转换与结构化整理
  • 5. 通过多OCR识别提高古籍扫描件转换精度
  • 6. 结合LLM实现自动目录生成与内容校对

相关导航

暂无评论

暂无评论...