Retrieval-based-Voice-Conversion-WebUI – 基于VITS的语音转换框架
这是一个基于VITS的简单易用的语音转换(变声器)框架,最近兴起的AI孙燕姿唱歌视频就是使用这个框架制作的。该框架通过top1检索替换输入源特征为训练集特征来杜绝音色泄漏,即便在相对较差的显卡上也能快速训练,使用少量数据进行训练也能得到较好结果,推荐至少收集10分钟低底噪语音数据。此外,用户可以通过模型融合来改变音色,借助ckpt处理选项卡中的ckpt-merge实现。该框架还提供了一个简单易用的网页界面,并支持调用UVR5模型来快速分离人声和伴奏。