所有AI工具AI其他工具AI开源项目

UniTok开源项目 – 统一视觉词元化器

UniTok是一个专为视觉生成与理解任务设计的统一视觉词元化器,能够高效地将视觉信息转化为token,适用于多种自回归生成模型和多模态理解模型。通过256个token即可实现低至0.39的rF...

标签:

AI交流(进群备注:UniTok)

UniTok是一个专为视觉生成与理解任务设计的统一视觉词元化器,能够高效地将视觉信息转化为token,适用于多种自回归生成模型和多模态理解模型。通过256个token即可实现低至0.39的rFID指标,生成效果出色。从零开始训练的模型在ImageNet零样本准确率上达到70.5%,表现优异。

UniTok的特点:

  • 1. 256个token即可实现低至0.39的rFID指标,生成效果出色
  • 2. 从零开始训练的模型在ImageNet零样本准确率上达到70.5%,表现优异
  • 3. 兼容多种自回归生成模型和多模态理解模型,适用性广泛

UniTok的功能:

  • 1. 用于视觉生成任务,提高生成效果
  • 2. 用于多模态理解任务,提升模型理解能力
  • 3. 作为统一的视觉词元化器,兼容多种模型,增强模型适用性

相关导航

暂无评论

暂无评论...