Mirasol3B 是由 Google 开发的多模态自回归模型,能够处理视频、音频和文本三种数据类型。它由视频-音频自回归模型、文本自回归模型和多模态融合模型三部分组成,能够处理时间对齐的模态(如视频和音频)以及非时间对齐的模态(如文本)。研究表明,Mirasol3B 在多模态任务中表现出色,例如视频-文本检索、音频-文本检索和视频-音频检索等。该模型是闭源的,详细信息仅通过 Google 博客文章和研究论文获取。
Large World Model (LWM) 是一个通用的大环境多模态自回归模型,专注于处理长视频和书籍数据。它使用RingAttention技术进行训练,能够处理多达100万token的上下文,支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集,解决了现有语言模型在处理复杂、长任务时的不足,尤其在文本图像生成、文本视频生成等任务中表现出色。