2025年最强大的语音转换框架AI工具推荐

Retrieval-based-Voice-Conversion-WebUI – 基于VITS的语音转换框架

这是一个基于VITS的简单易用的语音转换（变声器）框架，最近兴起的AI孙燕姿唱歌视频就是使用这个框架制作的。该框架通过top1检索替换输入源特征为训练集特征来杜绝音色泄漏，即便在相对较差的显卡上也能快速训练，使用少量数据进行训练也能得到较好结果，推荐至少收集10分钟低底噪语音数据。此外，用户可以通过模型融合来改变音色，借助ckpt处理选项卡中的ckpt-merge实现。该框架还提供了一个简单易用的网页界面，并支持调用UVR5模型来快速分离人声和伴奏。