轻量级下采样投影器

MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型，专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型，通过轻量级下采样投影器（LDP）实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异，推理速度快，适合在移动设备上运行。

Transformer图像描述生成多模态视觉语言模型移动设备

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。