所有AI工具AI开发框架AI开源项目AI视频工具

万相2.1开源项目 – 阿里云开源视频生成大模型

万相2.1是阿里云开源的视频生成大模型,采用Apache2.0协议开源,支持文生视频和图生视频任务,提供14B和1.3B两个参数规格的推理代码和权重。该模型在评测集VBench中以86.22%的总分...

标签:

AI交流(进群备注:万相2.1)

万相2.1是阿里云开源的视频生成大模型,采用Apache2.0协议开源,支持文生视频和图生视频任务,提供14B和1.3B两个参数规格的推理代码和权重。该模型在评测集VBench中以86.22%的总分领先,支持多种视频生成任务,开源且易于集成。14B版本在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,1.3B版本能在消费级显卡运行,仅需8.2GB显存生成480P视频。

万相2.1的特点:

  • 1. 视频生成能力强大
  • 2. 在评测集VBench中以86.22%的总分领先
  • 3. 支持多种视频生成任务
  • 4. 开源且易于集成
  • 5. 支持文生视频和图生视频任务
  • 6. 14B版本在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出
  • 7. 1.3B版本能在消费级显卡运行,仅需8.2GB显存生成480P视频
  • 8. 自研高效的因果3D VAE架构,改进时空压缩和降低内存使用
  • 9. 基于主流的视频DiT结构,确保长时程时空依赖的有效建模
  • 10. 训练和推理效率优化,支持分布式策略和模型切分
  • 11. 全面支持多种主流框架,如Gradio、xDiT、Diffusers和ComfyUI

万相2.1的功能:

  • 1. 用于生成高质量视频内容
  • 2. 适用于视频编辑和创作
  • 3. 可用于视频数据增强
  • 4. 支持视频风格转换
  • 5. 用于生成复杂人物肢体运动视频,如旋转、跳跃、转身、翻滚等
  • 6. 用于还原复杂真实物理场景,如碰撞、反弹、切割等
  • 7. 用于准确理解中英文长文本指令,还原场景切换和角色互动
  • 8. 用于二次模型开发和学术研究
  • 9. 用于快速原型开发和高效生产部署

相关导航

暂无评论

暂无评论...