多模态自回归模型

Mirasol3B 是由 Google 开发的多模态自回归模型，能够处理视频、音频和文本三种数据类型。它由视频-音频自回归模型、文本自回归模型和多模态融合模型三部分组成，能够处理时间对齐的模态（如视频和音频）以及非时间对齐的模态（如文本）。研究表明，Mirasol3B 在多模态任务中表现出色，例如视频-文本检索、音频-文本检索和视频-音频检索等。该模型是闭源的，详细信息仅通过 Google 博客文章和研究论文获取。

Google AI模型多模态自回归模型视频-音频-文本处理

Large World Model (LWM)开源项目 – 通用大环境多模态自回归模型

Large World Model (LWM) 是一个通用的大环境多模态自回归模型，专注于处理长视频和书籍数据。它使用RingAttention技术进行训练，能够处理多达100万token的上下文，支持语言、图像和视频的理解与生成。LWM通过整合大量多样化的视频和书籍数据集，解决了现有语言模型在处理复杂、长任务时的不足，尤其在文本图像生成、文本视频生成等任务中表现出色。

图像生成多模态自回归模型开源项目文本生成

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。