Respeecher是一个基于深度学习的生成式AI语音合成平台,专注于影视级语音克隆与方言优化。该项目成立于2018年,已获超300万美元投资,核心技术包括文本转语音(TTS)和语音转语音(VTS)转换,能精准捕捉情感细微差别并支持多语言/方言。其特色在于严格的伦理AI实践,要求声音使用必须获得授权,曾为《曼达洛人》《赛博朋克2077》等知名影视游戏项目提供声音解决方案,并获得Webby奖、戛纳评审团奖等多项行业认可。团队在乌克兰战争期间仍持续运营,2024年还支持了美国NO FAKES法案以保护声音版权。
HaiLuo Voice AI 是由 MiniMax 开发的语音 AI 产品,采用 T2A-01-HD 模型,支持 17 种语言和超过 300 种音色。该产品能够生成最多 10,000 字的语音,质量经过严格测试,适用于各种复杂场景。用户可以自定义语音参数,如情感、语速、音高和音色效果。此外,它还支持语音克隆,只需 10 秒音频即可捕捉语音的细微差别和情感底色,适合电影配音、有声书制作和高端虚拟助手的专业应用。
Spirit LM是由Meta开源的多模式语言模型,能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型,通过词级交错方法扩展到语音模式,使用子词BPE标记进行文本编码,并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集,利用自动策划的语音-文本平行语料库,同时学习语音和文本特征。模型还使用特殊标记区分文本和语音,并在训练中随机触发模态变化,使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本:基础版和表现力版,分别专注于语音语义单元和表达性语音合成。
序列猴子是由出门问问(Mobvoi)推出的大型语言模型,旨在提供智能对话和语言理解服务。该模型具备多模态生成能力,涵盖知识、对话、数学、逻辑、推理和规划六个维度,支持文本生成、图像生成、3D内容创建、语音合成和语音识别等多种任务。序列猴子于2023年4月推出,定位为ChatGPT的竞争者,适合开发面向消费者、企业和创作者的AI解决方案。
Speech Studio 是微软开发的有声内容创作平台,专注于提供先进的语音合成功能。用户可以通过该平台高度自定义语音的风格、语气、情绪、停顿、发音和韵律,生成的音频支持分段打包下载,特别适合用于视觉小说中的对话音频。平台还包含 Audio Content Creation 工具,基于 Speech Synthesis Markup Language (SSML),适用于有声读物、新闻广播、视频解说和聊天机器人等场景。
MemoAI 是一款完全本地运行的 AI 音视频转录工具,支持将 YouTube、播客和本地音视频文件转为文本、字幕,并提供翻译和语音合成功能。它适用于 macOS 和 Windows 系统,特别适合学习或内容创作者。
Tiangong AI 是一个完全免费的国产 AI 大模型,集成了多种功能,支持 AI 搜索、写作、视频转绘、语音合成、图片生成、漫画创作、图片识别、音乐生成、代码写作和表格生成等。该项目特别适合帮助学生和家长了解高考志愿填报的相关信息,如学校录取分数线、专业设置和就业前景,并提供一站式解决方案。用户可以通过网页端、安卓端和 iOS 端使用,访问方式包括网页、手机应用或小程序。
Doubao是由火山引擎(VolcEngine)开发的综合性AI模型家族,涵盖自然语言处理、视觉理解、语音合成、视频生成等多种AI任务。其模型在知识、代码、推理和中文等多个基准测试中表现优异,部分模型如Doubao-1.5-pro优于GPT4o和Claude 3.5 Sonnet,达到全球领先水平。Doubao模型广泛应用于ByteDance的产品,如剪映、即梦AI和醒图工具,覆盖智能座舱、在线教育、社会娱乐、智能客服等领域。
OpenAI Realtime API 是一款专为开发者设计的实时语音交互API,支持低延迟、多模态体验,特别适用于语音到语音的实时对话。该API集成了大型语言模型如 GPT-4,支持文本和音频的输入输出,并通过WebSockets实现实时流媒体功能。它减少了传统方法中因使用多个模型而导致的延迟,保留了对话的自然情感和流畅性。
MetaVoice-1B 是一个拥有1.2亿参数的文本转语音(TTS)模型,专注于生成情感丰富、节奏自然和音调准确的英语语音。它支持零样本克隆美国与英国口音,并支持跨语言的声线定制。模型基于100K小时的语音数据进行训练,支持任意长度文本的合成,并提供了丰富的API和Web UI供用户使用。项目采用Apache 2.0开源许可,用户可以无限制地使用。
Muice-Chatbot 是一个由 ChatGLM2-6B 和 Qwen-7B Qlora 微调模型驱动的聊天机器人,具备主动聊天、丰富情感色彩和高度定制化等特点。它支持 Python 3.10 环境部署,具有个性化的二次元风格和丰富的交互性。
F5-TTS是一个基于Flow Matching的语音合成项目,旨在生成流畅且高度还原的语音。它通过Diffusion Transformer架构和ConvNeXt V2模块,结合创新的Sway Sampling策略,显著提升了训练和推理速度。项目支持多语言、多风格和多说话者的语音生成,并提供了丰富的工具和接口,如Gradio应用、CLI推理和Docker支持。
百聆是一个开源的语音对话助手,结合了语音识别 (ASR)、语音活动检测 (VAD)、大语言模型 (LLM) 和语音合成 (TTS) 技术,旨在通过语音与用户进行自然的对话。该项目可以在无需GPU的情况下实现类GPT-4o的对话效果,适用于各种边缘设备和低资源环境。百聆具有高效开源模型、模块化设计、支持记忆功能、工具调用和任务管理等特点,提供高质量的语音对话体验,端到端时延800ms。
VoiceFlow是一个专为语音交互设计的开源框架,为开发者提供构建高效语音系统的工具。它支持多语言语音处理与实时对话,优化人机交互体验。通过其强大的语音识别、对话管理和语音合成功能,开发者可以轻松创建智能语音助手、语音控制系统等应用。
Aivis: AI Voice Imitation System 是一个先进的语音生成工具,能够生成高音质且富有情感的语音。它支持创建、训练和推断Bert-VITS2模型的数据集,广泛应用于语音合成、模型训练和AI研究领域。
AI吟美是一款多功能的人工智能虚拟主播(Vtuber),支持唱歌、绘画、语音合成、聊天等功能,并可在Bilibili直播中与观众互动。该项目集成了多个AI模型和服务,如GPT-SoVITS、Bert-VITS2语音合成、fastgpt聊天模型、stable-diffusion绘画模型等,支持多种舞蹈形式、场景切换和换装,提供详细的安装指南和配置文件,支持在Windows和Linux系统上运行,并且是开源项目,欢迎开发者贡献代码和提出改进建议。
VITS是一款基于深度学习的端到端语音合成模型,结合了变分自回归推断(VAE)和Transformer架构,能够生成高自然度、接近人声的语音。它支持多语言、多说话人合成,并且能够实现语音风格控制,适用于语音助手、有声阅读和虚拟主播等场景。VITS2是其升级版,结合了自回归和非自回归的TTS技术,具备更高效的语音生成能力和更自然的音色表现。
PSYCHE AI 是一个允许用户通过文本生成高质量视频的平台,利用逼真的AI虚拟形象和语音合成技术。它服务于创作者、教育者、营销人员和商业用户,无需复杂的设置即可快速生成视频。用户只需选择AI虚拟形象、输入文本、选择语音,即可在几分钟内生成视频。
mlx-audio 是一个基于 Apple 的 MLX 框架构建的文本转语音 (TTS) 和语音转语音 (STS) 库,专为 Apple Silicon 设备优化,提供高效的语音合成功能。它支持多语言、语音自定义和量化技术,适用于需要高性能语音合成的应用场景。
Orate是一个AI语音工具包,旨在简化语音合成与转录的过程。它通过与OpenAI、ElevenLabs等顶级AI提供商的无缝对接,提供了一个统一的API,使用户能够轻松实现文本转语音和语音转文本的功能。Orate使得创建逼真、类似人类的语音以及音频转录变得前所未有的简单。
UltymAI是一款终极集成AI应用,提供多种工具,包括图像创作、语音合成和应用程序生成。
Podbrews是一个创新的AI工具,通过将书面文档无缝转换为引人入胜的播客风格音频文件,帮助专业人士和内容创作者重新利用文本,提升内容的传播与消费方式。它利用先进的AI算法将PDF文档转化为生动的音频体验,配有逼真的语音和多种风格选项。
Paper2GUI是一个免安装即开即用的AI桌面应用工具箱,支持15种以上的AI模型,涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、图片OCR识别等多个领域,旨在让每个人都能够简单方便地使用前沿的人工智能技术。
MARS5-TTS 是一个开源的多语言语音合成模型,能够通过2-3秒的音频参考,在140多种语言中复现语音表现,包括体育解说、电影、动画等极具挑战性的韵律场景。该项目旨在提供高效、逼真的语音合成解决方案,简化语音内容的生成和编辑过程。
TTS Generator AI 是一个基于人工智能的文本转语音工具,能够在几秒钟内将任何文本内容转换为语音MP3文件。用户可以轻松生成高质量的语音,适用于各种应用场景,如教育、娱乐和商业。该平台提供免费试用,用户可以立即体验其强大的功能。
ElevenLabs 是一款提供最具吸引力、丰富和逼真的语音的文本转语音和语音克隆软件,旨在为创作者和出版商提供讲故事的终极工具。
UnlockAI是一个全能的AI平台,旨在通过自动化内容创作、排程、分析和互动等功能,提升在Instagram、Facebook、LinkedIn和TikTok等社交媒体上的在线影响力。它专注于提高效率和精准性,帮助用户更好地管理社交媒体。
Play.ht是一个AI语音生成平台,利用先进技术将文本转换为逼真的人声,支持142种语言和口音,拥有超过600种AI声音,为创建引人入胜和专业的语音内容提供了广泛的功能和应用场景。
Jaxo AI是一个集成多种在线工具的平台,提供免费的AI段落生成器、电子邮件生成器及其他智能工具,旨在通过先进的自动化和创造力来简化工作流程,释放AI在内容生成和盈利等方面的潜力。
AI Voice Generator Bot 是一个基于Telegram的文本转语音AI机器人,能够将您输入的文本转换为自然流畅的语音。用户只需输入文本,机器人将自动生成相应的音频,方便快捷,适用于各种场景。