VideoLLaMA3 是阿里巴巴达摩院开源的一款多模态视频-语言模型,专注于图像和视频理解。它以视觉为中心构建,核心设计理念包括以视觉为中心的训练范式和以视觉为中心的框架设计。该模型在通用视频理解、时间推理和长视频分析中刷新了SOTA成绩,并提供了轻量级2B版本适配端侧场景。VideoLLaMA3支持图像、视频输入与自然语言问答,支持跨语言生成,适用于国际化场景。用户可通过HuggingFace体验其图像和视频问答能力。