DIRFA是由新加坡南洋理工大学研究者提出的一种创新AI模型,旨在从音频和单张图片生成逼真的说话人脸动画视频。其核心是通过基于变换器的概率映射网络,将音频信号自回归地转换为人脸动画序列,表征音频条件下的人脸动画分布。该模型无需预训练特定人物模型,生成速度快,资源占用少,能够生成逼真的唇部动作、面部表情和头部姿势。