2025年最强大的10个文本到视频生成AI工具推荐

FlashVideo是一个专注于高效生成和增强高分辨率视频的AI工具，支持从文本描述直接生成视频或对低分辨率视频进行高清升级。其核心技术分为两阶段：首先生成270p低清视频（约30秒），再通过4步增强至1080p高清（约72秒）。项目提供完整模型权重和开源代码，支持长文本提示以实现更精细的视频生成效果。

0

开源视频工具文本到视频生成视频增强高效高分辨率视频生成工具

Step-Video-T2V官网 – 领先的文本到视频生成模型

Step-Video-T2V 是一个由 Stepfun AI 开发的先进文本到视频生成模型，支持中文和英文输入。它采用深度压缩技术，显著降低计算资源消耗，同时保持高质量视频重建。模型可生成高达204帧（约8秒）的高清视频，捕捉细腻视觉细节和复杂动态变化。其广泛应用于电影、广告、短视频、动画制作、教育培训和体育动作解析等场景。

0

AI视频创作双语文本编码器文本到视频生成深度压缩技术

万相 wan 2.1官网 – 阿里云开源AI视频生成模型

万相 wan 2.1 是阿里云推出的一款开源 AI 视频生成模型，支持从文本和图像生成高质量视频。该模型有多个变体，如 T2V-14B 和 T2V-1.3B，适用于不同需求。它在动态运动和多对象交互方面表现优异，支持中英文文本效果，适合学术研究、商业开发和内容创作等多种场景。

0

图像到视频生成开源AI视频生成模型文本到视频生成阿里云

Luma Ray2官网 – 先进的视频生成模型

Luma Ray2 是 Luma AI 推出的一种大型文本到视频生成模型，能够从文本或图像提示生成逼真的视频，展现自然且连贯的运动。它基于多模态架构训练，计算能力是前代 Ray1 的 10 倍，优化了运动连贯性、物理模拟和光影细节，生成接近电影级质感的视频。目前仅付费用户可用，未来计划扩展视频编辑和格式转换功能。

0

动态相机运动多模态架构文本到视频生成电影级质感

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

0

Transformer架构图像到视频转换开源项目文本到视频生成

HunyanVideo模型 – 最大的开源视频生成模型

HunyanVideo 是由腾讯开发的开源视频生成模型，拥有 13 亿参数，是目前最大的开源视频生成模型。它支持从文本描述生成视频，具有超现实画质、高语义一致性、流畅的运动画面和原生镜头转换等特点，适用于广告宣传、创意视频生成等商业场景。用户可以通过 GitHub 和 Hugging Face 访问模型权重、推理代码和算法，并通过腾讯元宝 APP 申请试用，API 也已开放测试。

0

3D VAE多模态大型语言模型开源视频生成模型文本到视频生成

Goku开源项目 – 基于流的高质量视频生成模型

Goku是由字节跳动与香港大学联合开发的一款基于Rectified Flow Transformer架构的视频生成模型。它通过精细的数据处理、模型设计和流式生成技术，实现了高质量的图像和视频生成。Goku支持多种生成任务，包括文本到视频、图像到视频和文本到图像生成，尤其在虚拟数字人和广告场景中表现突出。在权威测试VBench中，Goku的文本到视频生成得分达84.85，创下新纪录（SOTA）。

0

图像到视频生成广告场景文本到视频生成虚拟数字人

VGen开源项目 – 开源视频生成大模型

VGen是由阿里巴巴集团通义实验室开发的开源视频生成代码库，集成了多种先进的视频生成模型，包括I2VGen-XL、VideoComposer、HiGen、TF-T2V、InstructVideo、DreamVideo、VideoLCM等。它能够从文本、图像、运动轨迹等输入生成高质量视频，并支持多种视频生成工具，如可视化、采样、训练、推理、联合训练、加速等。VGen具有高度的扩展性和完整性，适用于多种视频生成任务。

0

加速开源视频生成模型文本到视频生成联合训练

Step-Video-T2V开源项目 – 高质量文本到视频生成模型

Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型，拥有300亿参数，能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE)，显著提高了训练和推理效率。配备双语文本编码器，支持中英文提示输入，并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

0

双语文本输入多GPU部署开源视频模型文本到视频生成

OpenVideo开源项目 – 文本到视频生成的开源项目

OpenVideo是一个专注于文本到视频生成领域的开源项目，旨在为AI研究者提供高质量、多样化的视频数据集。该项目不仅提供了超过106k+的720p视频片段，还支持多平台数据下载，包括ModelScope和HuggingFace。此外，OpenVideo还提供完整的数据收集、清洗和标注工具，帮助研究者更高效地进行视频数据处理和分析。

0

开源项目数据处理工具文本到视频生成视频数据集

Google Veo 2官网 – 先进的视频生成模型

Google Veo 2 是一个前沿的视频生成模型，能够根据文本或图像创建逼真的视频片段。它与改进版的文本到图像模型 Imagen 3 一同推出，提供更高质量的视觉效果。

0

创意内容制作广告视频生成文本到视频生成视频生成模型

Text2Video-Zero开源项目 – 零样本视频生成器

Text2Video-Zero是一种基于文本到图像的扩散模型，能够无需预训练实现文本到视频的生成。它结合了文本提示、姿态或边缘指导，支持高质量视频的零样本生成，适用于创作和编辑不同类型的视频内容。

0

创意内容制作动画创作文本到视频生成视频编辑工具

Veggie AI官网 – 轻松创造可控视频

Veggie AI是一个创新的平台，用户只需上传角色照片、动作视频，或输入文本提示，即可创建完全可控的视频内容。该工具利用先进的AI技术，简化了视频创作过程，让用户能够轻松实现自己的创意与想法。

0

AI视频生成工具动画视频制作文本到视频生成视频创作平台

AI Video Generation – Chrome Extension-快速生成高质量视频的工具

AI视频生成网站提供先进的AI模型，包括卫星AI和侧边面板AI，旨在迅速从文本和图像创建高质量视频。这些模型利用尖端技术生成视觉上令人惊叹和逼真的视频内容，使视频创作对广泛用户变得可及。

0

AI视频生成工具Chrome扩展教育视频制作文本到视频生成

Luma AI Video Generator官网 – 通过文本和图像生成高质量视频

Luma AI Video Generator是一个由Luma AI开发的平台，利用先进的人工智能技术，根据文本指令和图像快速高效地创建高质量的奇幻视频。用户只需输入文本描述或选择提供的提示，AI模型便会生成基于输入的高质量视频。

0

AI视频生成工具文本到视频生成高质量视频制作

DreamMachine AI Video Generator官网 – 轻松生成高质量视频

DreamMachine AI 视频生成器由 Luma AI 提供支持，利用先进的微调技术，允许用户仅需几次点击即可将想法变为现实。该系统通过直接在视频上训练的高效可扩展变换器模型，确保物理准确性、一致性和富有事件感的镜头，能够从静态快照生成流畅的动态视频，理解物理世界中的互动和物理现象。

0

AI视频生成器文本到视频生成用户友好界面高质量视频制作

FIFO-Diffusion开源项目 – 生成一致的长视频框架

FIFO-Diffusion是一个无需额外训练即可生成长视频的框架，通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型，结合算法优化，实现了高效的视频生成和去噪，已在现有的文本到视频生成基线上展示出其有效性。

0

FIFO-Diffusion文本到视频生成短视频拼接长视频生成

Latte-视频生成的潜扩散Transformer模型

Latte是一种新的潜扩散Transformer模型，用于视频生成，能够从输入视频中提取时空token，并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能，支持文本到视频生成任务，适用于多种复杂的时空视频生成需求。

0

文本到视频生成时空token提取潜扩散Transformer视频生成模型

VideoTuna开源项目 – 多功能视频生成模型工具

VideoTuna是一个集成了多种视频生成模型的代码库，支持从文本到视频、图像到视频的生成，并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型，如CogVideoX、Open-Sora、VideoCrafter等，能够处理不同分辨率的生成任务。此外，VideoTuna还提供了丰富的后处理功能，如视频到视频的后处理和增强模块，并计划推出3D视频VAE和可控面部视频生成模型，进一步扩展应用场景。

0

AI视频生成工具图像到视频生成微调工具文本到视频生成