INFP 是由 ByteDance 开发的音频驱动的双边互动视频生成框架,主要用于实时生成自然灵活的互动视频。它能够根据音频内容自动切换角色,生成与音频高度一致的面部表情和头部动作。该框架经过深度优化,运行速度超过 40 FPS,支持实时视频生成,适用于即时通讯、视频会议等实时场景。此外,它还支持多语言音频生成、唱歌模式,以及侧面头像和非人类形象的生成。