LatentSync 是字节跳动和北交大开源的AI工具,基于音频条件潜在扩散模型,通过交叉注意力层将音频信号集成到U-Net模型中,直接生成与音频匹配的唇部动作。该工具还引入了Temporal REPresentation Alignment(TREPA)机制,增强时间一致性,确保生成的视频在时间上保持连贯。