Docling是一个高效的工具,可以将PDF文档快速转换为JSON或Markdown格式。它具备详细的页面布局理解、阅读顺序恢复和表格结构提取的能力,此外,还提供可选的OCR功能,以便处理扫描文档。
用于构建复杂 LLM(大型语言模型)驱动的文档处理管道系统,通过简单的YAML配置即可实现复杂的数据处理流程,特别适合处理大量文档或非结构化数据集
TableBits是一个自动从任何PDF文档中快速提取表格数据的工具,支持批量上传,提取时间平均为60秒。用户可以从各种类型的文件中提取表格,包括年度报告、财务报表、银行对账单和发票等。
强大的文档处理工具,能将图片、PDF或Office文档高精度转换为Markdown文本或JSON结构化文档,还可用于去除文档中的个人身份信息。
Parsio是一个强大的人工智能驱动的文档解析工具,旨在自动化从各种文档格式(包括PDF、电子邮件等)中提取数据。
LLM预训练数据质量分类工具,支持本地或Huggingface Hub数据集的多维度评估,可总结数据集质量、筛选数据集或训练自定义分类器
AskYourPDF是一个强大的Chrome扩展,旨在为专业人士、学生及频繁使用PDF文件的用户提供便捷的PDF交互体验。用户只需从Chrome网上应用店安装该扩展,即可在浏览器中直接与PDF文件进行互动。