Hallo 是一个由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队共同开发的音频驱动肖像图像动画模型。它通过音频输入生成逼真的动画肖像,特别适用于需要动态面部表情和唇形同步的场景。该模型的核心技术包括 ReferenceNet、Face Encoder、Audio Encoder、UNet Denoiser 和 Temporal Alignment,能够生成高质量、逼真的动画形象。