HunyuanVideo-I2V 是腾讯混元团队最新发布并开源的图像转视频生成框架,基于多模态大语言模型(MLLM),利用预训练的解码器结构模型作为文本编码器,增强对输入图像语义内容的理解能力,并将图像生成的语义标记与视频潜在标记相结合,以实现更全面的跨模态全注意力计算。该模型适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至 CGI 角色制作的生成,支持高清视频生成和定制化特效,并上线对口型与动作驱动等玩法。