Step-Video-T2V官网 – 领先的文本到视频生成模型

Step-Video-T2V 是一个由 Stepfun AI 开发的先进文本到视频生成模型，支持中文和英文输入。它采用深度压缩技术，显著降低计算资源消耗，同时保持高质量视频重建。模型可生成高达204帧（约8秒）的高清视频，捕捉细腻视觉细节和复杂动态变化。其广泛应用于电影、广告、短视频、动画制作、教育培训和体育动作解析等场景。

Step-Video-T2V的特点:

1. 使用深度压缩技术，空间压缩16×16，时间压缩8倍，显著降低计算资源需求。
2. 拥有300亿参数，可生成204帧（约8秒）的高清视频。
3. 内置双语文本编码器，支持中文和英文提示输入。
4. 通过Direct Preference Optimization（DPO）技术提升视频质量。
5. 模型架构包括深度压缩Video-VAE、3D全注意力DiT和视频直接偏好优化（Video-DPO）技术。

Step-Video-T2V的功能:

1. 适用于电影、广告和短视频的高质量视频创作。
2. 可用于动画制作、教育培训和体育动作解析等场景。
3. 在线引擎可通过 yuewen.cn/videos 访问。
4. 支持梵高在巴黎的场景、千年隼号的旅程、宇航员在月球上的活动等艺术和科幻场景。

相关导航

funfun.art官网 – AI创意图像与视频生成平台

funfun.art是一个提供AI工具的创意平台，用户可以通过它轻松生成图像和视频，激发无限创造力。用户只需注册账户，选择AI艺术生成工具，输入创意想法即可生成作品。

万相 wan 2.1官网 – 阿里云开源AI视频生成模型

万相 wan 2.1 是阿里云推出的一款开源 AI 视频生成模型，支持从文本和图像生成高质量视频。该模型有多个变体，如 T2V-14B 和 T2V-1.3B，适用于不同需求。它在动态运动和多对象交互方面表现优异，支持中英文文本效果，适合学术研究、商业开发和内容创作等多种场景。

MOKI官网 – AI视频短片创作工具

MOKI是美图公司推出的一款基于AI技术的视频短片创作工具，旨在帮助创作者高效制作动画短片、网络短剧、故事绘本和音乐视频（MV）。它利用美图自研的Miracles Vision大模型，提供智能剪辑、自动配乐、音效生成、字幕生成等功能，简化了视频制作流程，特别适合需要快速生成内容的创作者。MOKI还支持AI生成分镜图、角色设计等功能，覆盖从脚本到成片的整个创作周期。

Luma Ray2官网 – 先进的视频生成模型

Luma Ray2 是 Luma AI 推出的一种大型文本到视频生成模型，能够从文本或图像提示生成逼真的视频，展现自然且连贯的运动。它基于多模态架构训练，计算能力是前代 Ray1 的 10 倍，优化了运动连贯性、物理模拟和光影细节，生成接近电影级质感的视频。目前仅付费用户可用，未来计划扩展视频编辑和格式转换功能。

PromptSora官网 – 基于文本生成视频的AI工具

PromptSora是一个专注于利用OpenAI的Sora模型，通过文本生成视频的工具，提供丰富的资源、教程和示例提示，帮助用户轻松创建高质量的视频内容。

VideoTuna开源项目 – 多功能视频生成模型工具

VideoTuna是一个集成了多种视频生成模型的代码库，支持从文本到视频、图像到视频的生成，并提供了预训练、连续训练、对齐和微调等完整的视频生成流程。它支持多种视频生成模型，如CogVideoX、Open-Sora、VideoCrafter等，能够处理不同分辨率的生成任务。此外，VideoTuna还提供了丰富的后处理功能，如视频到视频的后处理和增强模块，并计划推出3D视频VAE和可控面部视频生成模型，进一步扩展应用场景。

Goku开源项目 – 基于流的高质量视频生成模型

Goku是由字节跳动与香港大学联合开发的一款基于Rectified Flow Transformer架构的视频生成模型。它通过精细的数据处理、模型设计和流式生成技术，实现了高质量的图像和视频生成。Goku支持多种生成任务，包括文本到视频、图像到视频和文本到图像生成，尤其在虚拟数字人和广告场景中表现突出。在权威测试VBench中，Goku的文本到视频生成得分达84.85，创下新纪录（SOTA）。

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

FIFO-Diffusion开源项目 – 生成一致的长视频框架

FIFO-Diffusion是一个无需额外训练即可生成长视频的框架，通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。该项目利用预训练的扩散模型，结合算法优化，实现了高效的视频生成和去噪，已在现有的文本到视频生成基线上展示出其有效性。

Ai Club Society官网 – 解锁50多门AI培训课程

Ai Club Society是一个提供超过50门AI培训课程的平台，涵盖销售与内容创作、销售执行工具包、市场营销与AI、AI视频创作以及播客制作等领域。用户可以通过这个平台获取创业成长所需的框架和模板。

Google Veo 2官网 – 先进的视频生成模型

Google Veo 2 是一个前沿的视频生成模型，能够根据文本或图像创建逼真的视频片段。它与改进版的文本到图像模型 Imagen 3 一同推出，提供更高质量的视觉效果。

OpenVideo开源项目 – 文本到视频生成的开源项目

OpenVideo是一个专注于文本到视频生成领域的开源项目，旨在为AI研究者提供高质量、多样化的视频数据集。该项目不仅提供了超过106k+的720p视频片段，还支持多平台数据下载，包括ModelScope和HuggingFace。此外，OpenVideo还提供完整的数据收集、清洗和标注工具，帮助研究者更高效地进行视频数据处理和分析。

Axofy AI官网 – 一款增强内容创作的AI平台

Axofy AI是一个先进的人工智能平台，提供多种工具用于创作吸引人的内容，包括写作、图像生成、视频创作和配音。其主要目标是提升内容生成中的生产力和创造力，使用户能够轻松制作高质量内容。该平台支持广泛的创意任务，是个人和企业改善内容生产过程的宝贵资源。

Text2Video-Zero开源项目 – 零样本视频生成器

Text2Video-Zero是一种基于文本到图像的扩散模型，能够无需预训练实现文本到视频的生成。它结合了文本提示、姿态或边缘指导，支持高质量视频的零样本生成，适用于创作和编辑不同类型的视频内容。

openSora-STDiT-v3模型 – 开源文本生成视频模型

openSora-STDiT-v3 是 Open-Sora 1.2 项目的一部分，由 Lu Chen 团队开发。它是一个开源的文本生成视频模型，能够生成 16 秒 720p 高清视频，支持多种风格，如人物肖像、科幻大片和动画。该模型在视频压缩网络、扩散模型算法和模型评估系统上进行了创新，显著降低了训练成本并提高了视频质量。此外，它支持图像到视频生成和视频扩展功能，适用于游戏开发、影视制作、广告制作、教育培训和个人创作。

暂无评论

暂无评论...