何恺明团队推出分形生成模型：AI图像生成的新里程碑

0 0

分形生成模型：AI图像生成的新范式

近日，由何恺明教授带领的MIT团队在生成模型领域取得重大突破，提出了一种全新的「分形生成模型」（Fractal Generative Models，FGMs）。这一创新性模型不仅显著提升了计算效率，还在像素级图像生成任务中表现出色，为AI技术的发展开辟了全新方向。

分形理论驱动的生成模型

分形生成模型的核心灵感来源于数学中的分形理论。分形是一种具有自相似性质的几何结构，类似于俄罗斯套娃，每一部分都是整体的缩小版。团队将这一思想引入生成模型，通过递归调用可复用的“原子模块”，构建出自相似的分形架构。这种模块化设计不仅降低了计算复杂度，还实现了生成输出的指数级增长。

具体而言，分形生成模型采用分而治之的策略，将自回归模型抽象为模块化单元。每个级别的生成器从前一个生成器的输出中接收数据，逐步从图像块细化到像素级别，最终生成高分辨率图像。这种递归结构使得模型能够高效地处理高维非顺序数据，例如图像、分子结构和蛋白质等。

像素级图像生成的突破

分形生成模型在像素级图像生成任务中展现了卓越的性能。在ImageNet 256×256数据集上，逐像素生成一张图像仅需1.29秒，计算效率较传统方法提升了4000倍。此外，模型在ImageNet 64×64无条件生成任务中达到了3.14 bits/dim的负对数似然，超越了此前最佳的自回归模型。

在图像质量方面，FractalMAR-H模型取得了6.15的FID（Fréchet Inception Distance）和348.9的Inception Score，充分证明了其生成能力。更令人印象深刻的是，模型能够结合掩码自编码器（MAE）的思想，准确预测被掩蔽的像素，并在条件生成任务中捕捉高级语义信息。例如，在实验中，模型成功将猫的脸替换为狗的脸，展示了其在图像编辑中的潜力。