INFP 是由 ByteDance 开发的音频驱动的双边互动视频生成框架,主要用于实时生成自然灵活的互动视频。它能够根据音频内容自动切换角色,生成与音频高度一致的面部表情和头部动作。该框架经过深度优化,运行速度超过 40 FPS,支持实时视频生成,适用于即时通讯、视频会议等实时场景。此外,它还支持多语言音频生成、唱歌模式,以及侧面头像和非人类形象的生成。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型