所有AI工具AI图像工具AI开发框架AI开源项目

Inf-DiT开源项目 – 基于扩散模型的图像上采样方法

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像。该模型引入了单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2)降低到 ...

标签:

AI交流(进群备注:Inf-DiT)

Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像。该模型引入了单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N^2)降低到 O(N),有效解决了传统扩散模型在生成大尺寸图像时内存消耗过高的问题。Inf-DiT 采用扩散变换器(DiT)结构,能够处理各种形状和分辨率的图像上采样任务,并通过全局图像嵌入和邻近低分辨率块的交叉注意力机制等技术,增强图像的局部和全局一致性。实验结果表明,Inf-DiT 在超高分辨率图像生成和超分辨率任务中均达到了 SOTA 性能。

Inf-DiT的特点:

  • 1. 引入单向块注意力机制(UniBA),降低内存消耗
  • 2. 支持各种形状和分辨率的图像上采样
  • 3. 增强图像的局部和全局一致性
  • 4. 生成超高分辨率图像,达到 SOTA 性能
  • 5. 内存效率高,生成 4096 × 4096 图像时节省 5 倍内存

Inf-DiT的功能:

  • 1. 下载模型权重并放入 ‘ckpt’ 目录
  • 2. 使用 `bash generate_sr_big_cli.sh` 脚本进行图像上采样
  • 3. 通过调整 `inference_type` 参数选择不同的推理模式
  • 4. 使用 `train_text2image_sr_big_clip.sh` 脚本进行模型训练
  • 5. 通过 DeepSpeed 进行分布式训练

相关导航

暂无评论

暂无评论...