集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
利用torchao和diffusers优化扩散模型的端到端方案,支持推理和FP8训练,旨在提升模型的性能和效率。
DiffGS是一个功能性高斯喷溅扩散项目,旨在通过扩散模型生成高质量的图像。其核心技术围绕高斯喷溅的数学原理,能够在图像生成领域提供创新的解决方案。
该项目展示了如何利用扩散模型生成高性能的神经网络参数。通过自动编码器提取潜在表示,并训练扩散模型从随机噪声合成这些表示,从而生成新的网络参数子集。
扩散模型的极速推理工具,能快速处理复杂的图像生成任务,提升模型运行效率
DreamSampler结合了扩散采样和评分蒸馏技术,旨在实现图像处理中的图像生成与操控。该项目可以通过生成模型实现图像生成,并运用基于评分的技术对现有图像进行操控,提供了强大的图像编辑和生成能力。
DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱,支持多种数据类型的假量化,旨在提高模型的推理速度和效率。
专为物理AI设计的世界基础模型平台,旨在帮助物理AI开发者更好更快地构建物理AI系统。
IDM-VTON项目旨在通过改进的扩散模型,提升服装试穿的保真度与真实感,生成高质量的虚拟试穿图像,结合高级语义与低级特征,增强视觉效果的真实性,并通过详细的文字提示优化生成结果。
RectifiedFlow是一个简单统一的PyTorch代码库,专注于扩散和流模型,提供易于使用的平台用于训练和推理,强调简洁性、灵活性和快速原型设计。
收集了大量关于条件图像合成扩散模型论文的大列表,适用于研究人员和开发者,提供丰富的研究资源和参考资料。
HandDiff是一种利用扩散模型进行3D手势估计的方法,结合图像和点云数据,实现精确的手势识别和追踪。该项目致力于提升虚拟现实和增强现实中的人机交互体验。
CRATE是一个完全数学可解释的白盒Transformer模型,旨在通过统一多种模型架构实现高效的稀疏率降低,已在真实世界数据集ImageNet-1K上取得接近的性能。它整合了Transformer模型、自注意力、扩散模型和降噪技术,并通过展开迭代优化导出深层网络层。
AnyText 是一款支持多语言的视觉文本生成与编辑工具,能够用AI生成或编辑图片中的文字,并与图片风格保持一致,尤其支持中文。它基于扩散模型,集成了辅助潜在模块和文本嵌入模块,使用先进的训练技术,提供了大规模多语言文本图像数据集 AnyWord-3M。
一个创新的药物分子设计AI工具,通过扩散模型学习分子的3D结构、形状、静电特性和药效团的联合分布。
《Hands-On Generative AI with Transformers and Diffusion Models》一书的配套资源库,包含完整的代码示例和练习答案,适合想要系统学习生成式AI的开发者使用。
meta-prompts是一种利用扩散模型处理视觉感知任务的方案,通过引入可学习的元提示到预训练的扩散模型中,以提取适合特定感知任务的特征。该方法旨在提高模型在各种视觉任务中的表现,支持丰富的语义信息提取,满足类别识别、深度感知和关键点感知等需求。
自校正 LLM 控制的扩散模型,用于自动编辑任何图像或修复生成模型的文本到图像错位,无需额外训练。
《人体运动扩散模型》的论文代码,旨在高效生成和编辑人体运动,支持多种运动风格和动作捕捉数据。