AI开源项目开源项目

Marker开源项目 – 高效电子书转换工具

Marker 是一个高效的工具,能够将 PDF、EPUB 和 MOBI 格式的电子书快速准确地转换为 Markdown、JSON 和 HTML 格式。它基于深度学习模型,特别优化了书籍和科学论文的处理,支持多...

标签:

AI交流(进群备注:Marker)

Marker 是一个高效的工具,能够将 PDF、EPUB 和 MOBI 格式的电子书快速准确地转换为 Markdown、JSON 和 HTML 格式。它基于深度学习模型,特别优化了书籍和科学论文的处理,支持多种语言,并且可以在 GPU、CPU 或 MPS 上运行。Marker 不仅能够去除页眉、页脚等干扰元素,还能将大多数方程式转换为 LaTeX 格式,并格式化代码块和表格。

Marker的特点:

  • 1. 基于深度学习模型,优化书籍和科学论文处理
  • 2. 支持多种语言,涵盖所有类型文档
  • 3. 高精度转换 PDF 和图像为 Markdown、JSON 和 HTML 格式
  • 4. 自动去除文档中的非主要内容,如页眉和页脚
  • 5. 将大多数方程式转换为 LaTeX 格式
  • 6. 格式化代码块和表格
  • 7. 可在 GPU、CPU 或 MPS 上运行
  • 8. 高性能,单页转换仅需 0.18 秒
  • 9. 可选 LLM 增强模式,提高准确率至 96% 以上

Marker的功能:

  • 1. 将 PDF 文件转换为 Markdown 格式
  • 2. 将 EPUB 和 MOBI 文件转换为 Markdown 格式
  • 3. 将图像文件转换为 JSON 格式
  • 4. 提取 PDF 中的表格并转换为 HTML 格式
  • 5. 使用 LaTeX 转换数学公式
  • 6. 格式化文档中的代码块和表格
  • 7. 自动清理文档中的页眉和页脚
  • 8. 使用 LLM 增强模式提高转换准确率

相关导航

暂无评论

暂无评论...