CogView4开源项目 – 首个支持中文的开源文生图模型

CogView4是智谱开源的最新图像生成模型，首个支持中英双语提示词的开源文生图模型，尤其擅长理解和遵循中文提示词，能在画面中生成汉字，非常适合做广告、短视频创作等。它具备强大的中英双语提示词处理能力和汉字生成能力，支持任意尺寸图片生成，长文本输入无压力，采用GLM-4编码器构建，支持中英双语训练数据，动态文本长度处理，训练效率提升30%。

CogView4的特点:

1. 中英双语提示词自由输入，中文理解能力大幅提升
2. 首个能直接在画面生成汉字的中文开源模型
3. 突破性支持任意尺寸图片生成，长文本输入无压力
4. 即将开源Controlnet/Comfyui支持及微调工具
5. 混合分辨率训练 + 二维旋转位置编码
6. Flow-matching扩散模型 + 动态噪声规划
7. 基于GLM-4编码器构建
8. 中英双语训练数据支持
9. 动态文本长度处理，训练效率提升30%

CogView4的功能:

1. 生成中英双语提示词对应的图像
2. 生成包含汉字的图像
3. 生成任意尺寸的图片
4. 长文本输入生成高质量图像
5. 使用Controlnet/Comfyui进行图像生成
6. 微调模型以适应特定需求
7. 广告创作
8. 短视频创作
9. 复杂语义对齐的图像生成
10. 指令跟随的图像生成
11. 多语言提示词的图像生成
12. 高分辨率图像生成

相关导航

Zeniteq官网 – 专注于生成性人工智能的新闻杂志

Zeniteq是一个致力于生成性人工智能不断演变的新闻杂志，旨在提供有关各种AI领域的最新新闻和更新，包括对话式AI、图像和视频生成器以及音频合成技术的报道。

Grok (Grok 3)官网 – 未经过滤的AI聊天机器人

Grok 是一款由 xAI 开发的生成式 AI 聊天机器人，xAI 由 Elon Musk 创立。它旨在提供未经过滤、幽默的回应，并具备高级的推理、编码和视觉处理能力。Grok 可通过 X 平台访问，提供实时网络搜索和图像生成等功能。最新版本 Grok 3 于 2025 年 2 月发布，免费向所有人开放，但免费用户有使用限制。

tt-scale-flux开源项目 – 突破图像生成限制，提升生成效果

tt-scale-flux通过创新的推理时扩展技术，突破了传统去噪步数的限制，显著提升了图像生成的效果。该项目支持多种模型，并采用先进的验证器进行精准评分，确保生成高质量的图像。

MindDiffusion开源项目 – 基于MindSpore的扩散模型集合

MindDiffusion是一个基于MindSpore框架的扩散模型集合，支持多种任务，性能优化，包含预训练模型，可快速部署，并提供详细的文档和示例。

Vanity AI官网 – 提供高品质视觉特效的AI工具

Vanity AI是一个专注于高端视觉特效制作的人工智能项目，隶属于位于多伦多的VFX工作室Monsters Aliens Robots Zombies (MARZ)。该项目旨在将电影级别的视觉效果应用于电视节目制作中，从而提升观众的视觉体验并缩短生产周期。

Rochat-AI Chatbot官网 – 多功能AI聊天机器人

Rochat是一款多用途的AI聊天机器人，涉及创作、学习、写作、编程、图像生成等多个领域，帮助用户快速生成文本和图像，节省时间和精力。

Skillfusion AI官网 – 强大的AI工具平台

Skillfusion AI是一个强大的AI平台，提供超过30种免费的AI工具，帮助用户加速成功。用户可以注册网站，访问各种AI工具，包括创建自己的工具和浏览高级付费工具。

DavinciAI Toolkit官网 – 简易AI工具，让非技术用户受益

DavinciAI Toolkit 是一款旨在帮助非技术用户的易用AI工具包，提供多种功能以满足不同需求，包括构建自定义AI助手、语音克隆与配音、文件聊天、抄袭检查、内容与图像生成、图像转视频等。

MaximusAI官网 – 智能内容生成的一站式平台

MaximusAI是一个集成多种AI功能的全能平台，旨在通过人工智能轻松生成引人入胜的内容，助力品牌创新。用户可以通过简单的步骤生成各种类型的文本，节省时间和精力。

Lobe Chat开源项目 – 开源现代化的GPT聊天应用

非常强大的GPT网页客户端，开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架，支持语音合成、多模态、可扩展的插件系统。

AllChat官网 – 一款整合多种AI模型的应用

AllChat是一款集成了领先的AI模型（如Gemini、Claude和OpenAI）的应用，超越了传统聊天功能，支持图像生成、文件上传、代码执行和网络工具集成。用户可以生成精美图像、分析数据、自动化任务等。

Mirada AI官网 – 去中心化的AI工具平台

Mirada AI是一个利用区块链技术的去中心化平台，提供社区管理、图像生成、聊天和增强搜索功能的AI工具。

Napkin官网 – AI文本转图像工具

Napkin 是一个创新的 AI 工具，能够将用户的文本内容转化为视觉艺术，特别适合需要创意表达的场景，如写作、演示文稿和视频制作。它的核心功能是通过 AI 技术自动生成匹配的图像，并提供编辑和导出选项，使内容更具吸引力。Napkin 支持多种实用功能，包括自动生成图像、编辑与优化、多格式导出和灵活定制。此外，它还提供免费和专业计划，适合个人、小团队和大团队使用。

DiffMoE官网 – 高效动态MoE扩散模型

DiffMoE是一个基于PyTorch的扩散模型项目，采用动态专家混合（MoE）架构，通过仅激活1倍参数即可超越3倍参数的密集模型。它在ImageNet上表现出色，FID50K分数低至2.30，Inception Score高达88.19，仅需700K训练步。项目主要用于图像生成任务，如类别条件生成和文本到图像生成。其核心创新包括批次级全局令牌池和动态容量预测器，能够根据噪声水平和样本复杂度智能分配计算资源。