Speech Studio官网 – 微软的有声内容创作平台

Speech Studio 是微软开发的有声内容创作平台，专注于提供先进的语音合成功能。用户可以通过该平台高度自定义语音的风格、语气、情绪、停顿、发音和韵律，生成的音频支持分段打包下载，特别适合用于视觉小说中的对话音频。平台还包含 Audio Content Creation 工具，基于 Speech Synthesis Markup Language (SSML)，适用于有声读物、新闻广播、视频解说和聊天机器人等场景。

Speech Studio的特点:

1. 高度自定义语音风格、语气、情绪、停顿、发音和韵律
2. 支持分段打包下载音频，适合视觉小说对话
3. 实时或批量调整声音角色、风格、速度、发音和韵律
4. 支持多种音频输出格式，如 wav 和 mp3
5. 支持多种语言和声音选项，包括预构建和自定义神经声音
6. 无需编程，基于 SSML 的无代码语音合成解决方案
7. 多用户管理，支持团队协作

Speech Studio的功能:

1. 创建视觉小说中的对话音频
2. 制作有声读物和新闻广播
3. 生成视频解说和聊天机器人语音
4. 调整并导出音频文件到 Azure blob 存储或本地
5. 通过 Speech SDK 或 Speech CLI 集成到应用程序

相关导航

text-speech.net官网 – 在线文本转语音工具

text-speech.net 是一个免费的在线文本转语音工具，用户可以将文本转换为声音。使用该工具时，用户需连接互联网，打开网站后输入文本，选择语速、语言或性别，然后点击播放按钮即可听到转换后的声音。

Tiangong AI官网 – 免费多功能国产AI大模型

Tiangong AI 是一个完全免费的国产 AI 大模型，集成了多种功能，支持 AI 搜索、写作、视频转绘、语音合成、图片生成、漫画创作、图片识别、音乐生成、代码写作和表格生成等。该项目特别适合帮助学生和家长了解高考志愿填报的相关信息，如学校录取分数线、专业设置和就业前景，并提供一站式解决方案。用户可以通过网页端、安卓端和 iOS 端使用，访问方式包括网页、手机应用或小程序。

Muice-Chatbot开源项目 – 主动聊天的AI女孩

Muice-Chatbot 是一个由 ChatGLM2-6B 和 Qwen-7B Qlora 微调模型驱动的聊天机器人，具备主动聊天、丰富情感色彩和高度定制化等特点。它支持 Python 3.10 环境部署，具有个性化的二次元风格和丰富的交互性。

paper2gui开源项目 – 面向普通人的AI桌面APP工具箱

Paper2GUI是一个免安装即开即用的AI桌面应用工具箱，支持15种以上的AI模型，涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、图片OCR识别等多个领域，旨在让每个人都能够简单方便地使用前沿的人工智能技术。

MyHeyGen开源项目 – 开源AI语音合成与文本生成工具

MyHeyGen 是一个开源的AI工具，结合了语音合成和文本生成技术，能够实现逼真的语音效果和高效的内容创作，支持多种音频格式和语言，适用于个人创作及商业应用。

AiVOOV – Text to Speech Solution-领先的文本转语音生成网站

AiVOOV 是一个利用 AI 语音将书面文本转换为高质量音频文件的领先文本转语音生成网站。它提供超过 900 种真实的语音选择，支持 125 种语言，为用户创建专业且引人入胜的配音提供了广泛的选择。AiVOOV 消除了对传统配音服务的需求，为语音相关项目提供了一种成本效益高且高效的解决方案。

AI-YinMei开源项目 – 多功能AI虚拟主播

AI吟美是一款多功能的人工智能虚拟主播（Vtuber），支持唱歌、绘画、语音合成、聊天等功能，并可在Bilibili直播中与观众互动。该项目集成了多个AI模型和服务，如GPT-SoVITS、Bert-VITS2语音合成、fastgpt聊天模型、stable-diffusion绘画模型等，支持多种舞蹈形式、场景切换和换装，提供详细的安装指南和配置文件，支持在Windows和Linux系统上运行，并且是开源项目，欢迎开发者贡献代码和提出改进建议。

VoiceFlow开源项目 – 高效语音交互开发框架

VoiceFlow是一个专为语音交互设计的开源框架，为开发者提供构建高效语音系统的工具。它支持多语言语音处理与实时对话，优化人机交互体验。通过其强大的语音识别、对话管理和语音合成功能，开发者可以轻松创建智能语音助手、语音控制系统等应用。

TextToSpeech官网 – 高性价比的文本转语音工具

TextToSpeech 是一款桌面工具，可以以更低的成本将任何文本转换为语音，且质量无损。它还提供翻译、改进和脚本创建等实用功能，支持SSML。

ShortGPT开源项目 – 强大的自动化内容创作框架

ShortGPT 是一个强大的自动化内容创作框架，它简化了视频创作、素材获取、语音合成和编辑任务，帮助用户高效生成和编辑多媒体内容。

Real-Time-Voice-Cloning开源项目 – 快速生成与原声相似的音频

一个有趣的AI项目，可以通过短时间的音频源生成与原声音相似的音频，支持文本输入，基本可以做到以假乱真。

Spirit LM开源项目 – 混合语音与文本的多模式语言模型

Spirit LM是由Meta开源的多模式语言模型，能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型，通过词级交错方法扩展到语音模式，使用子词BPE标记进行文本编码，并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集，利用自动策划的语音-文本平行语料库，同时学习语音和文本特征。模型还使用特殊标记区分文本和语音，并在训练中随机触发模态变化，使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本：基础版和表现力版，分别专注于语音语义单元和表达性语音合成。