Inf-DiT开源项目 – 基于扩散模型的图像上采样方法
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像。该模型引入了单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2)降低到 O(N),有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 采用扩散变换器(DiT)结构,能够处理各种形状和分辨率的图像上采样任务,并通过全局图像嵌入和邻近低分辨率块的交叉注意力机制等技术,增强图像的局部和全局一致性。实验结果表明,Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。