Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
本文介绍了一个名为DDSP-SVC 3.0的开源项目,它是一个可以替代低配SO-VITS-SVC的工具。使用该工具,可以用更低的显存和更短的时间训练出模型,生成AI音乐。尽管生成的音乐质量相对较低,但可以用于快速生成音乐。
汇集语音语言模型和端到端语音对话系统的论文、代码和资源,旨在为研究人员和开发者提供全面的支持和参考。
该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据,支持多种语音风格和角色,包含详细的音频标注和文本转录,适合语音合成、转换及相关研究。
FATE-LLM是基于FederatedAI开发的联邦学习框架,支持大语言模型的分布式训练,旨在促进AI技术在保护知识产权和隐私的前提下的应用。该项目通过联邦学习架构,使得多方在不共享原始数据的情况下,能够协同训练出高效的AI模型,有效应对数据隐私和合规性挑战。
Speechki是一个AI驱动的语音生成和文本转语音解决方案,用户可以通过它将任何文本转换为高质量的音频内容,支持1100多种声音和80多种语言。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。
Defined.ai是一个提供高质量、伦理收集的数据集的平台,用户可以在此购买、销售或委托数据集,以满足AI训练的需求。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。