自回归模型与生成式AI的未来：从文本到物理世界的模拟

0 0

自回归模型：生成式AI的核心技术

自回归模型（Autoregressive Model）是生成式AI领域的重要技术之一，尤其在文本生成、图像生成和视频生成任务中表现卓越。其核心思想是通过顺序生成数据，每个步骤都依赖于之前生成的内容。例如，在文本生成中，自回归模型从左到右逐词生成文本，每个词的生成都基于前面的上下文。

英伟达在最新发布的Cosmos物理世界模拟模型中，结合了自回归模型、扩散模型和分词器等多种技术架构。这一创新使得Cosmos能够理解和模拟物理世界的基本概念，如重力、摩擦和惯性。训练Cosmos模型使用了2000万小时的视频数据，使其能够支持文本、图像和视频输入，为机器人、工业自动化和数字人等领域提供了强大的技术支持。

自回归模型与生成式AI的未来：从文本到物理世界的模拟

自回归模型与推理AI的融合

随着生成式AI的发展，推理AI（Reasoning AI）成为新的研究热点。英伟达CEO黄仁勋在财报电话会上提到，人工智能正从感知和生成式AI向推理AI转变。推理AI需要更深入的计算能力，而自回归模型在这一过程中扮演了重要角色。

英伟达的Blackwell架构专为推理AI设计，能够显著提升推理模型的Token吞吐量，同时降低成本。例如，Blackwell架构在推理AI模型的Token吞吐量上比前代产品提升了25倍，成本降低了20倍。这种技术进步使得自回归模型在推理AI中的应用更加高效，尤其是在复杂任务如思维链和搜索中表现出色。

自回归模型与生成式AI的未来：从文本到物理世界的模拟

分形生成模型：自回归模型的扩展

分形生成模型（Fractal Generative Model）是一种新的生成模型框架，通过递归调用生成模块构建复杂的生成系统。这一模型突破了传统模块化的限制，特别适合处理高维非顺序数据，如图像、分子结构和蛋白质。

分形生成模型的核心思想是将自回归模型作为生成器，通过递归分解联合分布来建模数据的内在结构。例如，在像素级图像生成任务中，分形生成模型能够高效处理大量像素，同时捕捉像素之间的复杂依赖关系。这一技术为生成模型的设计提供了新的研究方向，有望推动生成模型领域的进一步发展。

自回归模型与扩散模型的结合

近年来，研究人员尝试将自回归模型与扩散模型（Diffusion Model）结合，以探索新一代的生成模型范式。扩散模型的生成过程是“从粗到细”，即从噪声开始逐步细化输出。这种生成方式与自回归模型的顺序生成形成互补。

Inception Labs发布的Mercury模型是首个商业级扩散大型语言模型（dLLM），在文本生成任务中表现出色。Mercury模型在英伟达H100上能以每秒超过1000个Token的速度运行，显著提升了生成效率。这一技术突破表明，扩散模型在文本模态上具有巨大潜力，未来可能与自回归模型进一步融合，推动生成式AI的发展。