TokenVL

TokenOCR是一款面向文档理解的文本图像基础模型，旨在让机器更好地‘读懂’图文内容。它通过首个token级别的图像文本数据集TokenIT，包含2000万图像和18亿token-mask对，提出首个token级别的文本图像基础模型，支持多种下游任务。基于TokenOCR构建的TokenVL模型，在文档视觉问答任务中表现卓越。

TokenOCRTokenVL文本图像基础模型文档理解

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。