DreamTalk 是一个基于扩散模型的音频驱动表达性头部生成框架,能够生成具有多种说话风格的高质量头部视频。它支持多种输入类型,包括歌曲、多种语言的语音、含噪声音频和领域外的肖像画。该项目旨在通过先进的扩散概率模型,实现精准的唇音同步和生动的表情生成,适用于学术研究和非商业用途。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型