AI交流(进群备注:UniTok)

UniTok是一个专为视觉生成与理解任务设计的统一视觉词元化器,能够高效地将视觉信息转化为token,适用于多种自回归生成模型和多模态理解模型。通过256个token即可实现低至0.39的rFID指标,生成效果出色。从零开始训练的模型在ImageNet零样本准确率上达到70.5%,表现优异。
UniTok的特点:
- 1. 256个token即可实现低至0.39的rFID指标,生成效果出色
- 2. 从零开始训练的模型在ImageNet零样本准确率上达到70.5%,表现优异
- 3. 兼容多种自回归生成模型和多模态理解模型,适用性广泛
UniTok的功能:
- 1. 用于视觉生成任务,提高生成效果
- 2. 用于多模态理解任务,提升模型理解能力
- 3. 作为统一的视觉词元化器,兼容多种模型,增强模型适用性
相关导航
暂无评论...