所有AI工具AI图像工具AI学习网站AI开源项目

TokenOCR开源项目 – 文档理解的文本图像基础模型

TokenOCR是一款面向文档理解的文本图像基础模型,旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对,提出首个tok...

标签:

AI交流(进群备注:TokenOCR)

TokenOCR是一款面向文档理解的文本图像基础模型,旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对,提出首个token级别的文本图像基础模型,支持多种下游任务。基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。

TokenOCR的特点:

  • 1. 首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对。
  • 2. 提出首个token级别的文本图像基础模型,支持多种下游任务。
  • 3. 基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。

TokenOCR的功能:

  • 1. 用于文档视觉问答任务,提升问答系统的准确性。
  • 2. 支持多种下游任务,如文本识别、图像分类等。
  • 3. 构建和训练token级别的文本图像基础模型,用于复杂的文档理解任务。

相关导航

暂无评论

暂无评论...