Step-Video-T2V开源项目 – 高质量文本到视频生成模型

Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型，拥有300亿参数，能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE)，显著提高了训练和推理效率。配备双语文本编码器，支持中英文提示输入，并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

Step-Video-T2V的特点:

1. 300亿参数，生成长达204帧的高质量视频
2. 支持中英文双语文本输入
3. 基于深度压缩的变分自编码器(Video-VAE)，提高训练和推理效率
4. 采用扩散的Transformer(DiT)架构和3D全注意力机制
5. 通过直接偏好优化(DPO)方法提升视频质量

Step-Video-T2V的功能:

1. 生成高质量的视频内容，适用于影视制作、广告创意等领域
2. 支持多GPU并行部署，优化资源利用
3. 提供单GPU推理和量化支持，降低VRAM需求
4. 可用于生成动态视频，如运动场景、动画等
5. 通过在线引擎跃问视频进行视频生成和探索

相关导航

VideoTuna开源项目 – 多功能视频生成模型工具

VideoTuna是一个集成了多种视频生成模型的代码库，支持从文本到视频、图像到视频的生成，并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型，如CogVideoX、Open-Sora、VideoCrafter等，能够处理不同分辨率的生成任务。此外，VideoTuna还提供了丰富的后处理功能，如视频到视频的后处理和增强模块，并计划推出3D视频VAE和可控面部视频生成模型，进一步扩展应用场景。

TokenFlow官网 – 一致的扩散功能，实现一致的视频编辑

TokenFlow 是一个利用文本到图像扩散模型进行视频编辑的项目，能够保留输入视频的空间布局和运动，同时通过扩散特征空间强制一致性来确保编辑的一致性。该项目不需要任何训练或微调，并且可以与现成的文本到图像编辑方法结合使用。

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

OpenVideo开源项目 – 文本到视频生成的开源项目

OpenVideo是一个专注于文本到视频生成领域的开源项目，旨在为AI研究者提供高质量、多样化的视频数据集。该项目不仅提供了超过106k+的720p视频片段，还支持多平台数据下载，包括ModelScope和HuggingFace。此外，OpenVideo还提供完整的数据收集、清洗和标注工具，帮助研究者更高效地进行视频数据处理和分析。

Text2Video-Zero开源项目 – 零样本视频生成器

Text2Video-Zero是一种基于文本到图像的扩散模型，能够无需预训练实现文本到视频的生成。它结合了文本提示、姿态或边缘指导，支持高质量视频的零样本生成，适用于创作和编辑不同类型的视频内容。

CogVideo开源项目 – 支持生成视频内容的AI模型

智谱刚发布的最新CogVideoX1.5模型，能够生成高质量的视频内容，支持多种分辨率及时长的视频生成。

通义万相官网 – 多模态AI视频生成工具

通义万相是阿里巴巴云开发的多模态AI模型，能够从文本或图像生成高质量视频，支持多种艺术风格（如中国风、超现实主义等），生成的视频自带音频。最新版本WanX 2.1在2025年1月发布，进一步提升了视频生成的质量和速度，特别是在处理复杂运动和空间关系方面表现出色。该工具广泛应用于电影电视制作、动画设计、广告创作、教育资源生产和文化遗产保护等领域。

NeverEnds官网 – 将文字转化为精彩视频的创作平台

NeverEnds是一个将书面文字转换为惊艳视频演示的平台。用户只需输入文本，选择视频模板，定制设置，平台便会为您创建出美丽的视频。我们的使命是释放无限的创意可能性，让每个人的故事都能被听见。

Omnifact官网 – 隐私优先的生成式AI平台

Omnifact是一个面向企业的生成式AI平台，旨在提供生成式AI的潜力，并确保数据主权。

FlashVideo开源 – 高效高分辨率视频生成工具

FlashVideo是一个专注于高效生成和增强高分辨率视频的AI工具，支持从文本描述直接生成视频或对低分辨率视频进行高清升级。其核心技术分为两阶段：首先生成270p低清视频（约30秒），再通过4步增强至1080p高清（约72秒）。项目提供完整模型权重和开源代码，支持长文本提示以实现更精细的视频生成效果。

Stable Video Diffusion官网 – 从文本生成高质量视频序列的AI工具

Stable Video Diffusion是一款突破性的AI工具，能够直接根据文本生成高质量的视频序列，为用户提供全新的创作体验。

Luma Ray2官网 – 先进的视频生成模型

Luma Ray2 是 Luma AI 推出的一种大型文本到视频生成模型，能够从文本或图像提示生成逼真的视频，展现自然且连贯的运动。它基于多模态架构训练，计算能力是前代 Ray1 的 10 倍，优化了运动连贯性、物理模拟和光影细节，生成接近电影级质感的视频。目前仅付费用户可用，未来计划扩展视频编辑和格式转换功能。

VGen开源项目 – 开源视频生成大模型

VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库，集成了多种先进的视频生成模型，包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频，并支持多种视频生成工具，如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性，适用于多种视频生成任务。