TokenOCR是一款面向文档理解的文本图像基础模型,旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT,包含2000万图像和18亿token-mask对,提出首个token级别的文本图像基础模型,支持多种下游任务。基于TokenOCR构建的TokenVL模型,在文档视觉问答任务中表现卓越。