高质量视频生成

Veo 2官网 – 谷歌DeepMind的高质量视频生成模型

Veo 2是谷歌DeepMind开发的最先进视频生成模型，能够根据文本、图像或视频提示生成高质量、逼真的视频。它支持高达4K分辨率，提供多种电影和视觉风格，特别适合广告、营销、娱乐和教育等领域。Veo 2具有增强的真实性和保真度，支持复杂的摄影指令，并能模拟真实世界的物理和人类动作。此外，它与谷歌云平台Vertex AI集成，便于开发者使用。

4K分辨率Vertex AI集成多模态输入视频生成模型

通义万相官网 – 多模态AI视频生成工具

通义万相是阿里巴巴云开发的多模态AI模型，能够从文本或图像生成高质量视频，支持多种艺术风格（如中国风、超现实主义等），生成的视频自带音频。最新版本WanX 2.1在2025年1月发布，进一步提升了视频生成的质量和速度，特别是在处理复杂运动和空间关系方面表现出色。该工具广泛应用于电影电视制作、动画设计、广告创作、教育资源生产和文化遗产保护等领域。

1080p分辨率图生视频多模态AI视频生成多种艺术风格

Step-Video-T2V开源项目 – 高质量文本到视频生成模型

Step-Video-T2V开源项目 – 高质量文本到视频生成模型

Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型，拥有300亿参数，能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE)，显著提高了训练和推理效率。配备双语文本编码器，支持中英文提示输入，并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

双语文本输入多GPU部署开源视频模型文本到视频生成

matrix开源项目 – 高质量无限时长视频生成模型

matrix开源项目 – 高质量无限时长视频生成模型

Matrix 是一个先进的世界模型，旨在实时生成高质量、无限时长的交互视频，为神经交互模拟领域树立了新的标杆。它通过首次将真实与模拟数据结合训练，显著提升了模型的泛化能力，并基于 Swin-DPM 架构支持动态扩展内容，适应各种应用场景。

Swin-DPM架构无限时长视频生成神经交互模拟高质量视频生成

Omnifact官网 – 隐私优先的生成式AI平台

Omnifact是一个面向企业的生成式AI平台，旨在提供生成式AI的潜力，并确保数据主权。

工作效率提升数据主权生成式AI平台隐私保护

Latte-视频生成的潜扩散Transformer模型

Latte是一种新的潜扩散Transformer模型，用于视频生成，能够从输入视频中提取时空token，并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能，支持文本到视频生成任务，适用于多种复杂的时空视频生成需求。

文本到视频生成时空token提取潜扩散Transformer视频生成模型

AnimateDiff-Lightning官网 – 闪电般快速的文本到视频生成模型

一种闪电般快速的文本到视频生成模型，使用渐进式对抗扩散蒸馏技术，生成速度比原始 AnimateDiff 快十倍以上。

开源视频生成工具快速视频生成文本到视频生成模型高质量视频生成

CogVideoX-Fun开源项目 – 灵活的视频生成工具

CogVideoX-Fun开源项目 – 灵活的视频生成工具

CogVideoX-Fun 是一个强大的工具，支持从图片生成视频，并能在任意分辨率下生成高质量视频，适用于各种AI图像和视频创作需求，同时支持训练基线模型和Lora模型。

AI视频创作工具从图片生成视频训练AI模型高质量视频生成

CogVideo开源项目 – 支持生成视频内容的AI模型

CogVideo开源项目 – 支持生成视频内容的AI模型

智谱刚发布的最新CogVideoX1.5模型，能够生成高质量的视频内容，支持多种分辨率及时长的视频生成。

AI生成视频内容的模型支持多种分辨率的视频生成高质量视频生成

TokenFlow官网 – 一致的扩散功能，实现一致的视频编辑

TokenFlow 是一个利用文本到图像扩散模型进行视频编辑的项目，能够保留输入视频的空间布局和运动，同时通过扩散特征空间强制一致性来确保编辑的一致性。该项目不需要任何训练或微调，并且可以与现成的文本到图像编辑方法结合使用。

一致性编辑文本到图像扩散模型编辑视频视频编辑

HunyuanVideo开源项目 – 大型视频生成模型系统框架

HunyuanVideo开源项目 – 大型视频生成模型系统框架

HunyuanVideo是一个大型视频生成模型的系统框架，能够生成与领先闭源模型相媲美的视频，支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境，以促进视频生成技术的发展和应用。

多模态信息融合大型视频生成模型模型训练工具高质量视频生成

阿里达摩院文字生成视频模型官网 – 将文本转化为高质量视频

阿里达摩院发布的一个文字生成视频（text to video）模型，可以将文本转换为视频，支持多种文本输入，并且生成的视频质量高，用户可在线试玩。

在线视频创作文本生成视频高质量视频生成

Stable Video Diffusion官网 – 从文本生成高质量视频序列的AI工具

Stable Video Diffusion是一款突破性的AI工具，能够直接根据文本生成高质量的视频序列，为用户提供全新的创作体验。

动画效果制作广告视觉内容生成教育视频创作文本生成视频

Sora by OpenAI官网 – 创新的文本生成视频模型

Sora是OpenAI推出的开创性文本到视频模型，旨在弥合文本提示与视频生成之间的鸿沟。它利用先进的AI技术，将用户的文字描述转化为高质量的视频内容，提供了丰富的创作可能性。

可自定义视频元素快速渲染文本到视频生成用户友好的界面

UseSora官网 – 高质量视频作品及提示的集合

UseSora是一个汇集了OpenAI Sora生成的高质量视频作品和提示的平台，旨在帮助用户充分发挥Sora的潜力。该平台提供专业策划的提示、全面的指南、深入的案例研究，以及该变革性技术的最新应用。

Sora提示平台技术学习案例研究视频内容创作

NeverEnds官网 – 将文字转化为精彩视频的创作平台

NeverEnds是一个将书面文字转换为惊艳视频演示的平台。用户只需输入文本，选择视频模板，定制设置，平台便会为您创建出美丽的视频。我们的使命是释放无限的创意可能性，让每个人的故事都能被听见。

教育内容创作文字转视频平台用户友好界面营销视频制作

DeepFaceLab开源项目 – 深度伪造面孔交换的主流框架

DeepFaceLab开源项目 – 深度伪造面孔交换的主流框架

DeepFaceLab是一个深度伪造框架，专注于面孔交换，解决了深度伪造检测和生成方法中面临的挑战。

深度伪造用户友好界面自定义管道面孔交换

Stable Video Diffusion开源项目 – 本地生成高质量视频的模型

Stable Video Diffusion开源项目 – 本地生成高质量视频的模型

Stable Video Diffusion 是一个可以本地部署的视频生成模型，旨在通过先进的生成技术创建高质量视频内容。该项目基于生成对抗网络(GAN)技术，支持多种输入格式，能够生成多样化的视频内容，并集成了多种预训练模型，便于用户快速上手。

本地视频生成模型生成对抗网络用户友好接口预训练模型

Text2Performer开源项目 – 文本驱动的人物视频生成技术

Text2Performer开源项目 – 文本驱动的人物视频生成技术

由S-Lab、南洋理工大学和上海人工智能实验室联合发布的文本驱动的人物视频生成技术，能够根据用户输入的文本描述生成高质量的人物视频，支持多种风格和场景，提供用户友好的操作界面。

人物视频生成文本驱动视频生成用户友好界面高质量视频生成

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3