Fish Speech是一个开源项目,通过仅需15秒的任意声音,可以可靠地合成自然流畅的语音,同时保持给定的音色、风格和口音。该项目由So-VITS-SVC和Bert-VITS2的创作者团队推出。
GeniusMindsAI 是一个基于AI的内容创作平台,提供文本生成、语音合成、语音转文本、图像创作和代码生成等高级工具,支持多语言、团队协作和增强的安全措施,旨在为各行各业的用户提供高价值的解决方案。
Plot Factory 是一个创新的在线故事规划工具,旨在帮助作家简化规划、组织和写作叙事和虚构宇宙的过程。该平台无需安装,用户可以从几乎任何地方(甚至移动设备上)进行创作,支持详细的角色表、复杂的故事情节构建,以及以逼真的声音叙述书写内容。适合业余和专业作家,提供强大的环境,支持个人创意和协作努力。
TextToSpeech 是一款桌面工具,可以以更低的成本将任何文本转换为语音,且质量无损。它还提供翻译、改进和脚本创建等实用功能,支持SSML。
GeniusMindsAI 提供多种 AI 工具,支持内容创作、语音合成、聊天机器人、图像生成、语音转文本和代码生成,具备多语言支持、团队协作和增强安全性,为用户提供无与伦比的价值。
Kokoro 82M 是一个高质量的 TTS 模型,能够生成极高音频质量的语音,同时模型大小不到 300M,便于部署和使用。该模型在 T4 上能够快速生成语音,并支持通过架构训练其他语言,且只需不到 100 小时的音频数据进行训练。
fairseq是一个用于序列建模的开源工具包,支持多种自然语言处理和语音处理任务。
基于Zephyr 7B模型使用自定义语音进行本地AI对话,使用RealtimeSTT和faster_whisper进行转录,使用RealtimeTTS和Coqui XTTS进行语音合成,提供了一个实时的聊天机器人,可以进行语音交互。
RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具,支持实时语音转文字和语音合成,能够通过网页实现跨网络服务调用,方便用户在不同场景中进行高效的语音交互。
Clapper.app是一个开源的AI视频编辑工具,能够将剧本转化为故事板、视频、语音、声音和音乐,目前仍处于早期开发阶段,旨在帮助用户更高效地创建视频内容。
MyHeyGen 是一个开源的AI工具,结合了语音合成和文本生成技术,能够实现逼真的语音效果和高效的内容创作,支持多种音频格式和语言,适用于个人创作及商业应用。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据,支持多种语音风格和角色,包含详细的音频标注和文本转录,适合语音合成、转换及相关研究。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
OuteTTS是一个实验性的文本到语音模型,采用纯语言建模方法生成语音,致力于提升语音合成的自然性和可控性。
非常强大的GPT网页客户端,开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架,支持语音合成、多模态、可扩展的插件系统。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
Deepgram Voice AI是一款先进的语音AI平台,利用人工智能技术提供高质量的实时语音转文本和文本转语音服务,适用于医疗转录、对话AI及客户支持等多个应用场景。Deepgram提供易于集成的API,支持多种语言,旨在改变企业与开发者整合语音识别与合成的方式。
TranslateTracks 是一个用于为 YouTube 视频生成多语言音轨的工具,支持多种声音选择,帮助内容创作者触及全球观众。
voicechanger.io 是一个简单的在线变声应用,可以轻松地转换你的声音并添加各种效果。用户可以选择上传音频或使用麦克风录音,支持将文字生成语音,并能够播放或下载变换后的声音。
text-speech.net 是一个免费的在线文本转语音工具,用户可以将文本转换为声音。使用该工具时,用户需连接互联网,打开网站后输入文本,选择语速、语言或性别,然后点击播放按钮即可听到转换后的声音。
MindWrite AI是一个全面的AI生成平台,旨在通过自动化内容创作、代码生成、语音合成等,提升专业人士的工作效率和创造力。
vidBoard是一个生成AI平台,用户可以在几分钟内将照片转换为引人入胜的会说话的头像,并以超过120种语言制作专业视频,无需技术技能或高成本。
Spakfly是一款能够将任何文本转换为100%人声的语音软件,适用于视频销售信、教育视频、营销视频、培训视频、有声书等多种场景。用户只需注册账号,选择语言和声音,输入文本,定制语音设置,然后生成并下载语音文件。
AiVOOV 是一个利用 AI 语音将书面文本转换为高质量音频文件的领先文本转语音生成网站。它提供超过 900 种真实的语音选择,支持 125 种语言,为用户创建专业且引人入胜的配音提供了广泛的选择。AiVOOV 消除了对传统配音服务的需求,为语音相关项目提供了一种成本效益高且高效的解决方案。
SpeechLab是一个基于AI的语音技术平台,帮助出版商和创作者通过克服语言障碍,在全球范围内扩展影响力。它提供多种语言和方言的定制配音、语音解说和合成语音。用户可以上传音频或视频内容,选择所需的语言和方言进行配音或语音解说,或选择与自身声音或品牌相匹配的合成语音进行叙述。SpeechLab的先进AI技术将生成所需的语音输出,使您的内容在全球范围内可访问。
Clipcision是一个提供AI YouTube管理工具的平台,帮助用户扩展YouTube受众、塑造品牌愿景并提升业务规模。它提供全面的工具集,简化内容创作,优化传播效果,并提升YouTube频道的收入。