超越Sora：开源视频生成模型的崛起与AI大模型的未来

0 0

开源视频生成模型的崛起

2024年，开源视频生成模型迎来了前所未有的发展。2月25日晚，阿里云宣布开源其视觉生成基座模型万相2.1（Wan），采用最宽松的Apache2.0协议，支持14B和1.3B两个参数规格，涵盖文生视频和图生视频任务。在权威评测集VBench中，万相2.1以总分86.22%的成绩超越Sora、Luma、Pika等国内外模型，位居榜首。这一成就不仅展示了阿里云在视频生成领域的领先地位，也标志着开源视频生成模型的崛起。

超越Sora：开源视频生成模型的崛起与AI大模型的未来

万相2.1的技术突破

万相2.1在算法设计上基于主流DiT架构和线性噪声轨迹Flow Matching范式，研发了高效的因果3D VAE、可扩展的预训练策略等。该模型能够实现无限长1080P视频的高效编解码，并通过将空间降采样压缩提前，在不损失性能的情况下进一步减少了29%的推理时内存占用。此外，1.3B版本能在消费级显卡运行，仅需8.2GB显存即可生成高质量视频，适用于二次模型开发和学术研究。

超越Sora：开源视频生成模型的崛起与AI大模型的未来

开源潮席卷行业

由DeepSeek引发的开源热正在席卷行业。自2月24日起，DeepSeek接连开源5天5个代码库，涉及GPU使用场景的效率优化、用于MoE模型训练和推理的开源EP通信库等。在DeepSeek的推动下，昆仑万维开源了其旗下面向AI短剧创作的视频生成模型SkyReels-V1和表情动作可控算法SkyReels-A1。SkyReels-V1支持33种细腻人物表情与400+种自然动作组合，高度还原真人情感表达；SkyReels-A1则支持视频驱动的电影级表情捕捉，实现高保真微表情还原。

多模态大模型的未来

随着万相2.1的开源，阿里云实现了全模态、全尺寸大模型的开源，目前通义大模型的衍生模型数量已超过10万个，成为全球最大的开源模型。微软也宣布开源多模态智能体Magma，具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，还能够推测视频中人物或物体的意图和未来行为。Magma与具身智能的协同效应展示了多模态大模型在未来的广泛应用前景。