这是一个免费的AI开源项目知识库,包含586篇AI开源项目图文和89个开源项目介绍视频,涵盖AI数字人、虚拟女友、TTS模型、AI视频生成等多个领域的开源项目。知识库按最新更新时间排序,方便用户了解最新的AI开源动态,并提供社群交流功能。
Kokoro 82M 是一个高质量的 TTS 模型,能够生成极高音频质量的语音,同时模型大小不到 300M,便于部署和使用。该模型在 T4 上能够快速生成语音,并支持通过架构训练其他语言,且只需不到 100 小时的音频数据进行训练。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
Unreal Speech是一个创新的人工智能工具,旨在将文本转换为自然流畅的语音,适用于播客、视频和实时应用等多种内容生成。它具有高性价比、高质量音频输出和灵活的API,满足不同用户的需求。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
ChatTTS-Forge是一个基于ChatTTS模型的文本到语音生成项目,具备API服务器和基于Gradio的WebUI,能够提供全面的API服务以及支持超长文本的生成能力,用户可选择多种语音风格并管理说话人。
Play.ht是一个AI语音生成平台,利用先进技术将文本转换为逼真的人声,支持142种语言和口音,拥有超过600种AI声音,为创建引人入胜和专业的语音内容提供了广泛的功能和应用场景。
Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频,通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案,适用于多种应用场景。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
Zeniteq是一个致力于生成性人工智能不断演变的新闻杂志,旨在提供有关各种AI领域的最新新闻和更新,包括对话式AI、图像和视频生成器以及音频合成技术的报道。