XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
textlesslib是一个专为无文本口语处理设计的库,集成了多种先进的AI模型,提供高效的音频特征提取,支持多种语言的处理,且开放源代码,易于扩展。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
这款开源(open-weight)的文本转音频模型可根据文本提示生成 44.1kHz 的高质量立体声音频。它非常适合合成逼真的声音和现场录音,可以运行在消费级 GPU 上,因此非常适合学术研究和艺术用途。
Whisper是OpenAI推出的强大语音识别模型,支持多语言语音转文本,能够高精度地识别口语、方言,并自动生成字幕。它采用Transformer架构,具备强大的抗噪能力,适用于视频字幕生成、语音助手、会议记录等场景。Whisper支持99种语言的语音-文本转换,在低资源语种识别任务中WER降低至7.3%,流式处理架构实现200ms端到端延迟,自监督预训练机制减少对标注数据的依赖。
VocalForge是一个端到端的工具包,专为语音数据集创建而设计,旨在大幅减少为TTS模型、热词检测模型等创建数据集的时间,提高音频数据筛选的效率,并支持多种语音数据集格式。
TTSynth.com 是一款免费的在线文本转语音制作工具,能够轻松将书面文本转换为自然听感的语音。它支持多种语言和声音,用户可以快速生成和下载高质量的 TTS MP3 文件,非常适合用于有声书、演示文稿和无障碍访问。
Leelo是一款专为企业设计的AI驱动文本转语音工具,能够将文本转换为自然流畅的音频,帮助企业提升内容传播效果。
实时AI变声工具
ttsopenai.com是一个将PDF和电子书转换为有声书或MP3文件的在线平台。用户只需上传文件,选择语音和速度,即可生成音频内容,方便随时收听。
WellSaid Labs是一个领先的AI语音平台,能够实时将文本转换为高质量的语音,广泛应用于企业培训、广告、教育等多个领域。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
Zeniteq是一个致力于生成性人工智能不断演变的新闻杂志,旨在提供有关各种AI领域的最新新闻和更新,包括对话式AI、图像和视频生成器以及音频合成技术的报道。