Veo 2是谷歌DeepMind开发的最先进视频生成模型,能够根据文本、图像或视频提示生成高质量、逼真的视频。它支持高达4K分辨率,提供多种电影和视觉风格,特别适合广告、营销、娱乐和教育等领域。Veo 2具有增强的真实性和保真度,支持复杂的摄影指令,并能模拟真实世界的物理和人类动作。此外,它与谷歌云平台Vertex AI集成,便于开发者使用。
通义万相是阿里巴巴云开发的多模态AI模型,能够从文本或图像生成高质量视频,支持多种艺术风格(如中国风、超现实主义等),生成的视频自带音频。最新版本WanX 2.1在2025年1月发布,进一步提升了视频生成的质量和速度,特别是在处理复杂运动和空间关系方面表现出色。该工具广泛应用于电影电视制作、动画设计、广告创作、教育资源生产和文化遗产保护等领域。
Step-Video-T2V是阶跃星辰团队推出的开源文本到视频预训练模型,拥有300亿参数,能够生成长达204帧的高质量视频。该模型基于深度压缩的变分自编码器(Video-VAE),显著提高了训练和推理效率。配备双语文本编码器,支持中英文提示输入,并通过直接偏好优化(DPO)方法进一步提升视频质量。模型采用扩散的Transformer(DiT)架构和3D全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。
Matrix 是一个先进的世界模型,旨在实时生成高质量、无限时长的交互视频,为神经交互模拟领域树立了新的标杆。它通过首次将真实与模拟数据结合训练,显著提升了模型的泛化能力,并基于 Swin-DPM 架构支持动态扩展内容,适应各种应用场景。
Omnifact是一个面向企业的生成式AI平台,旨在提供生成式AI的潜力,并确保数据主权。
Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。
一种闪电般快速的文本到视频生成模型,使用渐进式对抗扩散蒸馏技术,生成速度比原始 AnimateDiff 快十倍以上。
CogVideoX-Fun 是一个强大的工具,支持从图片生成视频,并能在任意分辨率下生成高质量视频,适用于各种AI图像和视频创作需求,同时支持训练基线模型和Lora模型。
智谱刚发布的最新CogVideoX1.5模型,能够生成高质量的视频内容,支持多种分辨率及时长的视频生成。
TokenFlow 是一个利用文本到图像扩散模型进行视频编辑的项目,能够保留输入视频的空间布局和运动,同时通过扩散特征空间强制一致性来确保编辑的一致性。该项目不需要任何训练或微调,并且可以与现成的文本到图像编辑方法结合使用。
HunyuanVideo是一个大型视频生成模型的系统框架,能够生成与领先闭源模型相媲美的视频,支持多模态信息融合和大规模模型训练。该项目旨在提供高效的工具和环境,以促进视频生成技术的发展和应用。
阿里达摩院发布的一个文字生成视频(text to video)模型,可以将文本转换为视频,支持多种文本输入,并且生成的视频质量高,用户可在线试玩。
Stable Video Diffusion是一款突破性的AI工具,能够直接根据文本生成高质量的视频序列,为用户提供全新的创作体验。
Sora是OpenAI推出的开创性文本到视频模型,旨在弥合文本提示与视频生成之间的鸿沟。它利用先进的AI技术,将用户的文字描述转化为高质量的视频内容,提供了丰富的创作可能性。
UseSora是一个汇集了OpenAI Sora生成的高质量视频作品和提示的平台,旨在帮助用户充分发挥Sora的潜力。该平台提供专业策划的提示、全面的指南、深入的案例研究,以及该变革性技术的最新应用。
NeverEnds是一个将书面文字转换为惊艳视频演示的平台。用户只需输入文本,选择视频模板,定制设置,平台便会为您创建出美丽的视频。我们的使命是释放无限的创意可能性,让每个人的故事都能被听见。
DeepFaceLab是一个深度伪造框架,专注于面孔交换,解决了深度伪造检测和生成方法中面临的挑战。
Stable Video Diffusion 是一个可以本地部署的视频生成模型,旨在通过先进的生成技术创建高质量视频内容。该项目基于生成对抗网络(GAN)技术,支持多种输入格式,能够生成多样化的视频内容,并集成了多种预训练模型,便于用户快速上手。
由S-Lab、南洋理工大学和上海人工智能实验室联合发布的文本驱动的人物视频生成技术,能够根据用户输入的文本描述生成高质量的人物视频,支持多种风格和场景,提供用户友好的操作界面。