SlowFast-LLaVA是苹果开源的一个用于视频理解和推理的免训练多模态大型语言模型。该模型无需任何数据微调即可直接应用于视频理解任务,并且在多种视频问答任务和基准测试中表现优秀,可媲美或优于最先进的视频LLMs。它适用于多种多模态任务,如视频问答、视频生成、视频分类等,是视频理解和推理任务的强基线模型。