AI交流(进群备注:TokenOCR)

TokenOCR是一款面向文档理解的文本图像基础模型,旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对,提出首个token级别的文本图像基础模型,支持多种下游任务。基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。
TokenOCR的特点:
- 1. 首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对。
- 2. 提出首个token级别的文本图像基础模型,支持多种下游任务。
- 3. 基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。
TokenOCR的功能:
- 1. 用于文档视觉问答任务,提升问答系统的准确性。
- 2. 支持多种下游任务,如文本识别、图像分类等。
- 3. 构建和训练token级别的文本图像基础模型,用于复杂的文档理解任务。
相关导航
暂无评论...