Spirit LM开源项目 – 混合语音与文本的多模式语言模型
Spirit LM是由Meta开源的多模式语言模型,能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型,通过词级交错方法扩展到语音模式,使用子词BPE标记进行文本编码,并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集,利用自动策划的语音-文本平行语料库,同时学习语音和文本特征。模型还使用特殊标记区分文本和语音,并在训练中随机触发模态变化,使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本:基础版和表现力版,分别专注于语音语义单元和表达性语音合成。