Character-3是由Hedra Studio推出的全模态AI数字人视频生成模型,能够同时处理图像、文本和音频输入,通过联合推理生成高质量的视频。支持全身动作捕捉和情感控制,让创作者能够更精细地操控角色的表情、动作和情感。该模型被视为数字人视频生成技术的重大飞跃,旨在为创作者提供高效、创意的视频生成工具。
CosyVoice 2.0是由FunAudioLLM团队在Alibaba Group的SpeechLab开发的改进型流式语音合成模型。它旨在提供高质量、自然的声音,延迟低,适合实时应用。模型支持多语言语音合成,并提供对情感和方言的精细控制。CosyVoice 2.0在发音准确度、音质、延迟、方言和口音调整以及情感控制方面都有显著提升,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节。
LUCY是一款专注于语言理解和控制的AI项目,致力于打造早期阶段的智能交互系统。它能够通过情感控制和自然对话能力,使用户体验更加丰富和人性化,并支持高效的功能调用演示来完成复杂任务。