情感控制

Character-3是由Hedra Studio推出的全模态AI数字人视频生成模型，能够同时处理图像、文本和音频输入，通过联合推理生成高质量的视频。支持全身动作捕捉和情感控制，让创作者能够更精细地操控角色的表情、动作和情感。该模型被视为数字人视频生成技术的重大飞跃，旨在为创作者提供高效、创意的视频生成工具。

全模态AI数字人视频生成全身动作捕捉创意视频制作图像文本音频处理

CosyVoice 2.0官网 – 实时多语言语音合成模型

CosyVoice 2.0是由FunAudioLLM团队在Alibaba Group的SpeechLab开发的改进型流式语音合成模型。它旨在提供高质量、自然的声音，延迟低，适合实时应用。模型支持多语言语音合成，并提供对情感和方言的精细控制。CosyVoice 2.0在发音准确度、音质、延迟、方言和口音调整以及情感控制方面都有显著提升，仅需3~10秒的原始音频即可生成模拟音色，包括韵律、情感等细节。