MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型,专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型,通过轻量级下采样投影器(LDP)实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异,推理速度快,适合在移动设备上运行。