所有AI工具AI开发框架AI开源项目AI音频工具

Spirit LM开源项目 – 混合语音与文本的多模式语言模型

Spirit LM是由Meta开源的多模式语言模型,能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型,通过词级交错方法扩展到语音模式,使用子词BPE标记进行文本编...

标签:

AI交流(进群备注:Spirit LM)

Spirit LM是由Meta开源的多模式语言模型,能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型,通过词级交错方法扩展到语音模式,使用子词BPE标记进行文本编码,并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集,利用自动策划的语音-文本平行语料库,同时学习语音和文本特征。模型还使用特殊标记区分文本和语音,并在训练中随机触发模态变化,使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本:基础版和表现力版,分别专注于语音语义单元和表达性语音合成。

Spirit LM的特点:

  • 1. 混合语音与文本的多模式生成
  • 2. 使用HuBERT模型进行语音编码
  • 3. 支持子词BPE标记的文本编码
  • 4. 随机触发模态变化,实现语音与文本的交错
  • 5. 基础版和表现力版,分别处理语音语义单元和表达性语音
  • 6. 使用HifiGAN声码器进行高质量语音合成

Spirit LM的功能:

  • 1. 语音与文本的混合生成
  • 2. 语音语义单元的处理
  • 3. 表达性语音合成
  • 4. 语音-文本情感保留基准测试
  • 5. 语音标记化处理

相关导航

暂无评论

暂无评论...