视觉自回归建模(VAR):图像生成领域的新突破

AI快讯1周前发布 admin
0 0

在人工智能领域,图像生成技术一直是研究的热点之一。近日,字节跳动与北京大学合作的研究成果《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》(Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction,简称VAR)在NeurIPS 2024上被评为最佳论文,引发了广泛关注。这一研究不仅在技术上实现了重大突破,也为图像生成领域带来了全新的视角。

VAR的核心创新:模仿人类视觉逻辑

传统的图像自回归模型(AR)通常采用自上而下、逐行扫描的光栅顺序生成图像,这种方式虽然适合计算机处理,却与人类感知和创作图像的逻辑不符。VAR则从人类视觉出发,采用由粗到细、从全局到局部的多尺度顺序生成图像,更符合人类的直觉。

VAR的核心优势在于:

  • 生成速度大幅提升:VAR在每一步(每个尺度内部)并行生成所有图像token,跨尺度则采用自回归方式,生成速度比传统AR快数十倍。

  • 生成效果显著优化:VAR在生成质量上超越了当前主流的扩散模型(如DALL-E3、Stable Diffusion3),达到了SOTA水平。

  • Scaling Law的首次验证:VAR展现了与大型语言模型(LLM)类似的Scaling Law,即随着模型参数和计算量的增加,生成能力不断提升。

VAR的技术实现:两阶段训练

VAR的训练分为两个阶段:

  1. 多尺度量化自动编码器(Multi-scale VQVAE)训练:将图像转化为离散token map,并通过嵌入层、插值求和、解码器等步骤重建图像。

  2. 自回归Transformer训练:基于历史token map预测下一个更大尺度的token map,使用交叉熵损失进行监督。

VAR的技术细节融合了RQ-VAE、StyleGAN、DiT等经典技术的优点,展现了自回归算法在图像生成领域的巨大潜力。

实验结果:全面超越扩散模型

在Conditional ImageNet 256×256和512×512的实验对比中,VAR表现出了显著的优势:

  • 生成效果:VAR的FID(Fréchet Inception Distance)达到1.80,逼近理论下限1.78,显著优于Diffusion Transformer(DiT)的2.10。

  • 生成速度:VAR生成一张256×256图像仅需不到0.3秒,速度是DiT的45倍;在512×512分辨率下更是DiT的81倍。

  • 数据利用效率:VAR仅需350个epoch的训练即超过DiT 1400个epoch的训练效果。

Scaling Law与零样本任务泛化

VAR的研究还验证了视觉生成领域的Scaling Law,即测试集损失随模型参数和计算量的增加呈现出幂律下降趋势。此外,VAR展现了零样本任务泛化能力,能够在未经微调的情况下完成图像补全、外插、编辑等任务。

结论:自回归模型的未来

VAR的研究为图像生成领域提供了一种全新的自回归范式,首次使自回归模型在生成速度、效果和Scaling能力上全面超越扩散模型。这一成果不仅为视觉生成领域带来了新的可能性,也为未来基于自回归的统一多模态算法的发展奠定了基础。

此次VAR的突破性研究,再次证明了自回归模型在人工智能领域的强大潜力,也为图像生成技术的发展指明了新的方向。

© 版权声明

相关文章

暂无评论

暂无评论...