UniTok是一个专为视觉生成与理解任务设计的统一视觉词元化器,能够高效地将视觉信息转化为token,适用于多种自回归生成模型和多模态理解模型。通过256个token即可实现低至0.39的rFID指标,生成效果出色。从零开始训练的模型在ImageNet零样本准确率上达到70.5%,表现优异。