AI交流(进群备注:Vary-toy)

Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型,参数量为1.8B,能够在消费级显卡(如1080Ti)上训练和运行。它支持多种视觉语言任务,包括处理图片中的文字、图表、公式,以及对象检测、图像描述、视觉问答等,同时支持中英文。通过改进的视觉词汇表增强视觉感知能力,Vary-toy在多个数据集上的表现与7B级模型相当甚至更好,且计算开销更低。
Vary-toy的特点:
- 1. 处理图片中的文字、图表和公式
- 2. 进行对象检测和图像描述
- 3. 支持视觉问答和视觉基准测试
- 4. 中英文双语支持,计算开销低
- 5. 在多个数据集上表现与7B级模型相当甚至更好
Vary-toy的功能:
- 1. 克隆GitHub仓库并安装依赖包,运行演示脚本进行本地测试
- 2. 访问官方演示网站,上传图片并输入提示指令进行在线体验
- 3. 使用DeepSpeed进行模型训练,适配其他基础语言模型
- 4. 应用于文档OCR、对象检测、图像描述、视觉问答等场景
相关导航
暂无评论...