Hallo 是一个由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队共同开发的音频驱动肖像图像动画模型。它通过音频输入生成逼真的动画肖像,特别适用于需要动态面部表情和唇形同步的场景。该模型的核心技术包括 ReferenceNet、Face Encoder、Audio Encoder、UNet Denoiser 和 Temporal Alignment,能够生成高质量、逼真的动画形象。
Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具,核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号,仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动,生成流畅自然的视频。Sonic在口型同步、表情和头部运动方面表现出色,尤其适合长视频生成。