Spirit LM开源项目 – 混合语音与文本的多模式语言模型

所有AI工具AI开发框架 AI开源项目 AI音频工具

Spirit LM开源项目 – 混合语音与文本的多模式语言模型

Spirit LM是由Meta开源的多模式语言模型，能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型，通过词级交错方法扩展到语音模式，使用子词BPE标记进行文本编...

标签：AI开发框架 AI开源项目 AI音频工具HifiGAN声码器 HuBERT模型多模式语言模型文本编码语音合成语音编码

官网入口手机查看

AI交流（进群备注：Spirit LM）

Spirit LM是由Meta开源的多模式语言模型，能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型，通过词级交错方法扩展到语音模式，使用子词BPE标记进行文本编码，并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集，利用自动策划的语音-文本平行语料库，同时学习语音和文本特征。模型还使用特殊标记区分文本和语音，并在训练中随机触发模态变化，使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本：基础版和表现力版，分别专注于语音语义单元和表达性语音合成。

Spirit LM的特点:

1. 混合语音与文本的多模式生成
2. 使用HuBERT模型进行语音编码
3. 支持子词BPE标记的文本编码
4. 随机触发模态变化，实现语音与文本的交错
5. 基础版和表现力版，分别处理语音语义单元和表达性语音
6. 使用HifiGAN声码器进行高质量语音合成

Spirit LM的功能:

1. 语音与文本的混合生成
2. 语音语义单元的处理
3. 表达性语音合成
4. 语音-文本情感保留基准测试
5. 语音标记化处理

相关导航

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq是一个用于序列建模的开源工具包，支持多种自然语言处理和语音处理任务。

UnlockAI官网 – 全能AI平台，提升社交媒体影响力

UnlockAI官网 – 全能AI平台，提升社交媒体影响力

UnlockAI是一个全能的AI平台，旨在通过自动化内容创作、排程、分析和互动等功能，提升在Instagram、Facebook、LinkedIn和TikTok等社交媒体上的在线影响力。它专注于提高效率和精准性，帮助用户更好地管理社交媒体。

ChatTTSPlus开源项目 – 聊天文本转语音工具

ChatTTSPlus开源项目 – 聊天文本转语音工具

ChatTTSPlus开源项目 – 聊天文本转语音工具

聊天文本转语音工具，让语音合成更快速、支持声音克隆和移动部署，提升语音交互体验

mlx-audio开源项目 – 高效语音合成库

mlx-audio开源项目 – 高效语音合成库

mlx-audio开源项目 – 高效语音合成库

mlx-audio 是一个基于 Apple 的 MLX 框架构建的文本转语音 (TTS) 和语音转语音 (STS) 库，专为 Apple Silicon 设备优化，提供高效的语音合成功能。它支持多语言、语音自定义和量化技术，适用于需要高性能语音合成的应用场景。

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据，支持多种语音风格和角色，包含详细的音频标注和文本转录，适合语音合成、转换及相关研究。

UltymAI官网 – 终极集成AI应用

UltymAI官网 – 终极集成AI应用

UltymAI是一款终极集成AI应用，提供多种工具，包括图像创作、语音合成和应用程序生成。

AI Voice Generator Bot官网 – 自然声音的文本转语音机器人

AI Voice Generator Bot官网 – 自然声音的文本转语音机器人

AI Voice Generator Bot 是一个基于Telegram的文本转语音AI机器人，能够将您输入的文本转换为自然流畅的语音。用户只需输入文本，机器人将自动生成相应的音频，方便快捷，适用于各种场景。

Aivis开源项目 – 高音质AI语音生成工具

Aivis开源项目 – 高音质AI语音生成工具

Aivis开源项目 – 高音质AI语音生成工具

Aivis: AI Voice Imitation System 是一个先进的语音生成工具，能够生成高音质且富有情感的语音。它支持创建、训练和推断Bert-VITS2模型的数据集，广泛应用于语音合成、模型训练和AI研究领域。

Neuralgen.ai官网 – 自动化视频翻译，支持多语言

Neuralgen.ai官网 – 自动化视频翻译，支持多语言

Neuralgen.ai 是一个自动化视频翻译平台，可以将您的视频翻译成超过10种语言，提供超现实的语音和精确的口型同步。用户只需连接到NeuralGen.ai，上传视频，选择翻译语言和语音参数，然后启动自动翻译，享受高质量的翻译结果。

Resemble官网 – 先进的AI语音克隆工具

Resemble官网 – 先进的AI语音克隆工具

Resemble是一个先进的人工智能工具，专注于创建逼真且可定制的语音克隆。它帮助内容创作者、营销人员和企业提升音频内容，提供近乎人声的合成声音。用户可以快速生成高质量的音频内容，支持多种语言，具备情感调制功能，方便进行音频编辑和集成。

TranslateTracks官网 – 多语言音轨生成工具

TranslateTracks官网 – 多语言音轨生成工具

TranslateTracks 是一个用于为 YouTube 视频生成多语言音轨的工具，支持多种声音选择，帮助内容创作者触及全球观众。

Local AI Voice Chat开源项目 – 本地AI语音对话助手

Local AI Voice Chat开源项目 – 本地AI语音对话助手

Local AI Voice Chat开源项目 – 本地AI语音对话助手

基于Zephyr 7B模型使用自定义语音进行本地AI对话，使用RealtimeSTT和faster_whisper进行转录，使用RealtimeTTS和Coqui XTTS进行语音合成，提供了一个实时的聊天机器人，可以进行语音交互。

Deepgram Voice AI官网 – 实时语音转文本与文本转语音的API服务

Deepgram Voice AI官网 – 实时语音转文本与文本转语音的API服务

Deepgram Voice AI是一款先进的语音AI平台，利用人工智能技术提供高质量的实时语音转文本和文本转语音服务，适用于医疗转录、对话AI及客户支持等多个应用场景。Deepgram提供易于集成的API，支持多种语言，旨在改变企业与开发者整合语音识别与合成的方式。

voicechanger.io官网 – 一个简单的在线变声应用

voicechanger.io官网 – 一个简单的在线变声应用

voicechanger.io 是一个简单的在线变声应用，可以轻松地转换你的声音并添加各种效果。用户可以选择上传音频或使用麦克风录音，支持将文字生成语音，并能够播放或下载变换后的声音。

Play.ht官网 – AI语音生成平台

Play.ht官网 – AI语音生成平台

Play.ht是一个AI语音生成平台，利用先进技术将文本转换为逼真的人声，支持142种语言和口音，拥有超过600种AI声音，为创建引人入胜和专业的语音内容提供了广泛的功能和应用场景。

暂无评论

暂无评论...

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3