所有AI工具AI图像工具AI学习网站

Vary-toy官网 – 小型视觉语言模型

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型,参数量为1.8B,能够在消费级显卡(如1080Ti)上训练和运行。它支持多种视觉语言任务,包括处理图片...

标签:

AI交流(进群备注:Vary-toy)

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型,参数量为1.8B,能够在消费级显卡(如1080Ti)上训练和运行。它支持多种视觉语言任务,包括处理图片中的文字、图表、公式,以及对象检测、图像描述、视觉问答等,同时支持中英文。通过改进的视觉词汇表增强视觉感知能力,Vary-toy在多个数据集上的表现与7B级模型相当甚至更好,且计算开销更低。

Vary-toy的特点:

  • 1. 处理图片中的文字、图表和公式
  • 2. 进行对象检测和图像描述
  • 3. 支持视觉问答和视觉基准测试
  • 4. 中英文双语支持,计算开销低
  • 5. 在多个数据集上表现与7B级模型相当甚至更好

Vary-toy的功能:

  • 1. 克隆GitHub仓库并安装依赖包,运行演示脚本进行本地测试
  • 2. 访问官方演示网站,上传图片并输入提示指令进行在线体验
  • 3. 使用DeepSpeed进行模型训练,适配其他基础语言模型
  • 4. 应用于文档OCR、对象检测、图像描述、视觉问答等场景

相关导航

暂无评论

暂无评论...