Ditto Speak 是一款语音克隆与语音生成工具,能够从音频中捕捉语音模式,并生成与原始音频相似的语音。用户只需上传音频样本,输入文本,即可生成与原始语音风格一致的语音内容。
ElevenLabs 是一款提供最具吸引力、丰富和逼真的语音的文本转语音和语音克隆软件,旨在为创作者和出版商提供讲故事的终极工具。
ChatTTS Me 是一个将文本转化为自然流畅语音的平台,适用于聊天机器人和虚拟助手,提供优化和富有表现力的对话体验。
Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
MiniCPM-o 是一款轻量级多模态大语言模型,具有8B参数,能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理,性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能,支持多语言和多模态实时流媒体处理,广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。
该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据,支持多种语音风格和角色,包含详细的音频标注和文本转录,适合语音合成、转换及相关研究。
基于GPT4-o的模块化开源语音转文字再转语音的解决方案,支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程,旨在提供高度模块化和可定制的语音交互体验
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
Parler-TTS 是一种开源的轻量级文本转语音 (TTS) 模型,可以生成具有给定说话者风格(性别、音调、说话风格等)的高质量、自然的语音。经过 45,000 小时公开演讲的训练,生成速度提高了 4 倍,支持多种语言的文本到语音转换。
该项目允许用户通过上传短音频片段,快速创建任何名人的AI声音。用户只需输入要生成的文本即可获得所需的名人声音。
FakeYou是一个利用深度伪造技术创建高度真实自然的语音从书面文本的创新平台,允许用户生成模仿各种个人和名人声音的语音,适用于内容创作、娱乐和辅助工具等多个领域。
VocalReplica是一个提供语音克隆服务的网站,专门针对从YouTube视频中复制声音。用户只需提供包含想要克隆声音的YouTube视频链接,服务将分析视频音频并生成该声音的复制品,用户可以下载或直接用于各种用途。
Resemble是一个先进的人工智能工具,专注于创建逼真且可定制的语音克隆。它帮助内容创作者、营销人员和企业提升音频内容,提供近乎人声的合成声音。用户可以快速生成高质量的音频内容,支持多种语言,具备情感调制功能,方便进行音频编辑和集成。
Arible是一个平台,允许用户创建与自己相似的照片写实或艺术图片,提供超过1000种风格选择,并支持定制化选项,操作简单易用。
Nurmonic是一个强大的AI平台,允许用户访问100多种个性,生成图像和视频,并提供支持票据的帮助等多种功能。