JoyHallo是京东开源的AI数字人项目,专注于生成普通话和英语的数字人视频。项目通过集成wav2vec2模型进行音频特征嵌入,优化了面部动画的生成过程,适用于数字媒体、在线教育、虚拟助手等领域。项目基于29小时的普通话语音视频数据集,采用半解耦结构捕捉唇部、表情和姿态特征之间的关系,提升了信息利用效率,并加速了推理速度。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型