所有AI工具AI办公工具

SmolDocling-256M-preview模型 – 高效文档转换视觉语言模型

SmolDocling-256M-preview 是由 IBM 研究院与 Hugging Face 合作开发的超紧凑视觉语言模型,专为高效文档转换设计。其参数量仅为2.56亿,性能却可媲美参数量高出27倍的模型,显著...

标签:

Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26

AI交流(进群备注:)

SmolDocling-256M-preview 是由 IBM 研究院与 Hugging Face 合作开发的超紧凑视觉语言模型,专为高效文档转换设计。其参数量仅为2.56亿,性能却可媲美参数量高出27倍的模型,显著降低了计算资源需求。该模型引入了‘DocTags’通用标记格式,能够同时捕获文档的文本内容、结构和元素的空间布局,支持多种文档元素的识别和处理,包括文本、表格、图表、代码和公式。

SmolDocling-256M-preview的特点:

  • 1. 高效性:在消费级GPU上,每页处理时间仅0.35秒,适合资源受限环境。
  • 2. 兼容性:与Docling系统完全兼容,支持DoclingDocuments。
  • 3. 多模态处理:能识别和处理多种文档元素,包括文本、表格、图表、代码和公式。
  • 4. 端到端的文档转换:准确捕获内容、结构和空间位置。
  • 5. 支持光学字符识别(OCR):从图像中提取文本。
  • 6. 保持文档布局和元素边界框,保留结构信息。
  • 7. 识别并格式化代码块,包括缩进。
  • 8. 处理数学表达式和公式。

SmolDocling-256M-preview的功能:

  • 1. 通过Hugging Face平台加载模型,支持transformers、MLX和ONNX格式。
  • 2. 利用提供的演示页面进行测试。
  • 3. 确保与Docling生态系统的兼容性,输出DocTags格式的结构化文档。
  • 4. 高效转换复杂文档,特别是在计算资源有限的情况下。
  • 5. 处理业务文档、学术论文、技术报告、专利和表格等多种文档类型。

相关导航

暂无评论

暂无评论...