AI交流(进群备注:万相2.1)

万相2.1是阿里云开源的视频生成大模型,采用Apache2.0协议开源,支持文生视频和图生视频任务,提供14B和1.3B两个参数规格的推理代码和权重。该模型在评测集VBench中以86.22%的总分领先,支持多种视频生成任务,开源且易于集成。14B版本在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,1.3B版本能在消费级显卡运行,仅需8.2GB显存生成480P视频。
万相2.1的特点:
- 1. 视频生成能力强大
- 2. 在评测集VBench中以86.22%的总分领先
- 3. 支持多种视频生成任务
- 4. 开源且易于集成
- 5. 支持文生视频和图生视频任务
- 6. 14B版本在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出
- 7. 1.3B版本能在消费级显卡运行,仅需8.2GB显存生成480P视频
- 8. 自研高效的因果3D VAE架构,改进时空压缩和降低内存使用
- 9. 基于主流的视频DiT结构,确保长时程时空依赖的有效建模
- 10. 训练和推理效率优化,支持分布式策略和模型切分
- 11. 全面支持多种主流框架,如Gradio、xDiT、Diffusers和ComfyUI
万相2.1的功能:
- 1. 用于生成高质量视频内容
- 2. 适用于视频编辑和创作
- 3. 可用于视频数据增强
- 4. 支持视频风格转换
- 5. 用于生成复杂人物肢体运动视频,如旋转、跳跃、转身、翻滚等
- 6. 用于还原复杂真实物理场景,如碰撞、反弹、切割等
- 7. 用于准确理解中英文长文本指令,还原场景切换和角色互动
- 8. 用于二次模型开发和学术研究
- 9. 用于快速原型开发和高效生产部署
相关导航
暂无评论...