HunyuanDiT开源项目 – 中文原生DiT架构文生图模型

HunyuanDiT是腾讯混元发布的文生图大模型，首个中文原生的DiT架构文生图开源模型。它支持中英文双语输入及理解，提供LoRA小规模数据集训练方案与可控制插件ControlNet。该模型通过专属加速库显著缩短生图时间，支持微调和个性化模型创建，并基于ComfyUI的图形化界面或Hugging Face Diffusers通用模型库调用。

HunyuanDiT的特点:

1. 中文原生模型，支持中英文双语输入及理解
2. 开源训练代码，支持微调和个性化模型创建
3. 提供LoRA小规模数据集训练方案，最少仅需一张图即可创作出专属模型
4. 提供ControlNet插件，支持通过边缘、深度、人物姿势等条件控制图像生成
5. 专属加速库，使生图时间缩短75%
6. 基于ComfyUI的图形化界面使用，或通过Hugging Face Diffusers通用模型库调用
7. 生图速度提升4倍
8. 通过知识蒸馏降低扩散模型迭代步数
9. 使用TensorRT推理加速，减少冗余计算、合并层次、精简精度
10. 支持中文元素理解，提供双语生成能力
11. 具备长文本理解能力，能分析和理解长篇文本中的信息
12. 实现细粒度语义理解，捕捉文本中的细微之处

HunyuanDiT的功能:

1. 微调模型以创造更具个性化的模型
2. 使用LoRA技术训练特定画风、IP或人物特征的模型
3. 使用ControlNet插件通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人
4. 基于ComfyUI的图形化界面使用混元DiT
5. 通过Hugging Face Diffusers通用模型库调用混元DiT模型
6. 用于文本到图像生成，根据用户提供的文本描述生成相应的图像
7. 支持与用户进行多轮对话，根据上下文生成和完善图像
8. 可用于艺术创作，生成符合特定主题和风格的作品

相关导航

Zoo官网 – 文本生成图像的创新平台

Zoo是一个创新的游乐场，允许用户通过多种文本到图像的AI模型，根据文本输入生成逼真的图像。它利用潜在的文本到图像扩散模型，包括STABILITY-AISTABLE-DIFFUSION 1.5、2.1，AI-FOREVERKANDINSKY-2和OpenAI的DALL-E，提供丰富的探索体验。Zoo是一个开放源代码的项目，为研究人员和开发者提供了一个可访问的协作平台，探索计算机视觉AI的进展与应用。

Dazzle AI官网 – 魔法般的AI艺术创作工具

Dazzle AI是一款提供多种AI艺术工具的网站，允许用户生成原创图像、修改现有图像、扩展图像边界等。用户只需创建免费账户或登录，即可访问多种AI模型，按需生成图像，应用不同的滤镜和效果，调整现有图像，甚至扩展画布以创建更大的作品。

Image+官网 – 轻松生成独特美丽的图片

Image+是一个基于人工智能的图像生成工具，用户可以轻松创建无限的免费图像，无需登录、无任何限制，也无需提供信用卡信息。

WittyWingMan官网 – 你的在线约会聊天AI伴侣

WittyWingMan是一个AI驱动的工具，旨在帮助用户在在线约会聊天中提供智能、个性化和机智的对话开场白和回复，从而促进真实的联系。用户只需上传聊天截图，WittyWingMan便能生成智能的个性化回复，使聊天更加生动有趣。

Dating Copilot AI官网 – 提升你的约会技巧

Dating Copilot AI是一个基于人工智能的应用，帮助用户增强在线约会体验。用户只需上传对话截图，应用就会提供消息建议，帮助用户更好地表达自己。

Arible Headshots官网 – 快速生成高质量头像

Arible Headshots 是一个头像生成工具，与市场上大多数生成器不同，该工具只需要一张参考照片即可生成高质量（4k）肖像，并且生成速度比当前竞争对手快一半以上。

Undress AI v2官网 – 通过AI技术隐去照片中的衣物

Undress AI v2 是一款基于人工智能的应用，用户只需上传一张照片，即可自动处理结果，展示未穿衣物的效果。该项目结合了先进的计算机视觉技术，旨在为用户提供隐私保护的同时，探索图像处理的可能性。

羽人开源项目 – 开源多模态大语言模型

基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型，建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。

Story-Adapter官网 – 无需训练的长故事可视化框架

Story-Adapter 是一个基于扩散模型的AI框架，专为长故事可视化设计。它通过迭代优化和全球参考交叉注意力模块（GRCA），从文本叙述生成连贯的图像序列，无需额外训练即可处理长达100帧的故事。该框架显著提升了多图像间的语义一致性及细粒度交互质量，解决了传统文本到图像模型在长序列生成中的缺陷传播问题。2024年研究数据显示，其在角色相似度（aCCS）和图像质量（aFID）指标上均优于同类方案。

HiDream-I1开源项目 – 开源高质量图像生成模型

HiDream-I1是HiDream.ai团队推出的开源图像生成基础模型，拥有17亿参数，采用MIT许可证。该模型在多项基准测试中（DPG-Bench/GenEval/HPSv2.1）超越SDXL、DALL-E 3等主流模型，支持秒级高质量图像生成。提供完整版、蒸馏版和极速版三种变体，适用于不同场景需求。技术层面融合扩散模型与混合专家架构（MoE），集成多模态文本编码器，在语义理解、细节渲染和风格多样性方面表现突出。

Stable Fast 3D (Official)官网 – 快速生成高质量3D资产

Stable Fast 3D是Stability AI的革命性模型，可以通过单张图像在仅仅0.5秒内创建高质量的3D资产。

StoryDiffusion开源项目 – 生成连贯的图像与视频

StoryDiffusion专注于长程图像和视频生成，通过一致性自注意力机制生成连贯的图像和视频，创造魔法般的故事。项目支持生成复杂细节的图像和流畅的长视频，并引入语义运动预测器以提高生成的稳定性，适用于多种创意内容生成。

Stable Diffusion官网

稳定扩散 - DreamStudio是一款创新的开源AI工具，允许用户基于文本描述生成个性化图像，适合艺术家和设计师使用。

Kolors开源项目 – 先进的文本生成图像模型

Kolors是一个由潜在扩散技术驱动的前沿文本到图像模型，经过数十亿对数据的训练，具备卓越的视觉质量、复杂语义和文本渲染能力，超越了众多开源和闭源模型。

BlinkShot开源项目 – 实时AI图像生成器

BlinkShot是一个实时AI图像生成器，能够快速生成高质量的图像，支持自定义分辨率和生成步骤，适合艺术创作和设计领域。

deepseek-free-api开源项目 – 免费调用DeepSeek功能的API

deepseek-free-api是一个基于DeepSeek模型的免费API接口项目，允许用户免费调用DeepSeek的强大功能。它支持高速流式输出、多轮对话、联网搜索、深度思考模式等功能，并且与ChatGPT的接口完全兼容。项目提供多种部署方式，包括Docker、Docker-compose、Render、Vercel以及原生部署等。项目作者强调，该项目仅用于研究交流学习，禁止商用。

Stable Diffusion 3官网 – 高质量图像生成的前沿AI模型

Stable Diffusion 3是由Stability AI开发的一款先进AI模型，能够根据文本描述生成高质量的图像。该模型在生成图像的连贯性和细节上有所提升，支持多种风格和主题，提供用户友好的界面，便于访问和集成。

AnyControl开源项目 – 一种新的文本到图像引导方法

AnyControl 是一种新的文本到图像的引导方法，可以从各种控制信号（例如颜色、形状、纹理和布局）生成图像。

Finetune-ChatGLM2-6B开源项目 – 高效微调支持多轮对话

ChatGLM2-6B 全参数微调，支持多轮对话的高效微调，旨在提升对话系统的性能和用户体验。该项目通过对预训练模型的全面微调，使其能够适应特定任务和领域，提高了模型的灵活性和适用性。

TeamSmart AI官网 – 智能助手，提升工作效率

TeamSmart AI 是一款 Chrome 扩展，旨在通过一键访问多种专用 AI 助手来简化日常任务，从而提高生产力。用户可以根据个人或专业需求组建自己的 AI 团队，这使得处理内容创作、代码生成、艺术创作等任务变得更加高效。所有数据安全存储在本地，确保用户隐私。

LCM-LoRA开源 – 加速文本到图像生成的创新技术

LCM-LoRA 是由清华大学和 Hugging Face 研究人员开发的加速模块，基于潜在一致性模型（LCM）。它通过对稳定扩散模型（Stable Diffusion）进行知识蒸馏，将生成图像的步骤从 25-50 步减少到 4-8 步，速度提升 5-10 倍，实现实时生成效果。LCM-LoRA 利用低秩适应（LoRA）技术分解神经网络，降低内存消耗，支持多种模型如 SD-V1.5、SSD-1B 和 SDXL，无需重新训练即可嵌入。

暂无评论

暂无评论...