Mirasol3B 是由 Google 开发的多模态自回归模型,能够处理视频、音频和文本三种数据类型。它由视频-音频自回归模型、文本自回归模型和多模态融合模型三部分组成,能够处理时间对齐的模态(如视频和音频)以及非时间对齐的模态(如文本)。研究表明,Mirasol3B 在多模态任务中表现出色,例如视频-文本检索、音频-文本检索和视频-音频检索等。该模型是闭源的,详细信息仅通过 Google 博客文章和研究论文获取。