AI实时变声工具
AI交流(进群备注:MetaVoice)
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
用Rust语言实现的超快文本转语音(TTS)引擎,只需一个命令就能合成高质量语音,支持多种语言,让语音合成变得简单快捷
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
StyleTalk是一个用于训练大型语言模型的语音对话数据集,旨在提高模型对不同说话风格的理解和响应能力。数据集包含情感、语速和音量的变化,由人类标注过滤。
MyHeyGen 是一个开源的AI工具,结合了语音合成和文本生成技术,能够实现逼真的语音效果和高效的内容创作,支持多种音频格式和语言,适用于个人创作及商业应用。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
kokoroTTS是一个文字生成语音模型,现已推出WASM版本,可以直接在浏览器中运行,支持高质量的语音生成,适配多种硬件,快速生成语音,方便用户在各种场景下使用。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
基于ChatTTS的语音合成工具,支持音色抽卡、长音频生成和分角色朗读,简单易用,无需复杂安装。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
专门为构建个性化普通话文本转语音(TTS)系统而设计的语音语料库,提供多样的语音样本,适合训练深度学习模型,支持多种语音合成技术的研究与应用,易于扩展和集成到现有的TTS框架中。
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。