Vary-toy 是一个由旷视、国科大、华中大的研究人员共同开发的小型视觉语言模型,参数量为1.8B,能够在消费级显卡(如1080Ti)上训练和运行。它支持多种视觉语言任务,包括处理图片中的文字、图表、公式,以及对象检测、图像描述、视觉问答等,同时支持中英文。通过改进的视觉词汇表增强视觉感知能力,Vary-toy在多个数据集上的表现与7B级模型相当甚至更好,且计算开销更低。