所有AI工具AI图像工具AI开发框架AI开源项目

MobileVLM开源项目 – 移动设备上的多模态视觉语言模型

MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型,专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型,通过轻量级...

标签:

AI交流(进群备注:MobileVLM)

MobileVLM是美团和浙江大学等推出的开源多模态视觉语言模型,专为移动设备设计。它结合了基于Transformer的语言模型MobileLLaMA和基于CLIP思想预训练的多模态视觉模型,通过轻量级下采样投影器(LDP)实现语言和视觉的交互与融合。MobileVLM在多个视觉语言任务上表现优异,推理速度快,适合在移动设备上运行。

MobileVLM的特点:

  • 1. 支持多模态视觉语言任务
  • 2. 基于Transformer的语言模型MobileLLaMA
  • 3. 轻量级下采样投影器(LDP)实现跨模态交互
  • 4. 在多个标准视觉语言基准测试中表现优异
  • 5. 支持在移动设备上高效推理

MobileVLM的功能:

  • 1. 图像与文本的交互问答
  • 2. 图像描述生成
  • 3. 视觉问答(VQA)
  • 4. 文本生成与摘要
  • 5. 移动设备上的实时多模态任务处理

相关导航

暂无评论

暂无评论...