Parler-TTS 是一种开源的轻量级文本转语音 (TTS) 模型,可以生成具有给定说话者风格(性别、音调、说话风格等)的高质量、自然的语音。经过 45,000 小时公开演讲的训练,生成速度提高了 4 倍,支持多种语言的文本到语音转换。
Typecast AI是一款在线AI语音生成器,能够将文本转换为真实感十足的语音,提供超过400种超现实的声音选择。用户可以为视频、演示、培训材料等创建定制化的生动音频内容。
Bark是一个创新的文本转语音工具,能够生成接近真人的高质量声音,支持多种语言,并可添加情感音效和背景噪音,适用于各种应用场景。
基于GPT4-o的模块化开源语音转文字再转语音的解决方案,支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程,旨在提供高度模块化和可定制的语音交互体验
Synthesys X 是一款革命性的内容制作工具,提供语音、视频和图像生成服务,旨在提升内容创作的效率与质量。用户可以通过简单的界面生成高质量的音频、视频和图像,满足多种内容需求。
阿里巴巴云计算推出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接生成文本回复,为对话系统和音频处理任务提供强大支持。
bark.cpp是Suno AI的Bark项目在C/C++中的移植,旨在实现快速的语音合成推理。它支持多种声音模型,具有可扩展的架构,并经优化以适应实时应用场景。
Synthia 是一款多功能的 AI 聊天机器人,能够与用户进行对话,生成图像,并提供个性化的聊天体验。它结合了先进的自然语言处理技术,帮助用户在聊天中获得更丰富的互动和创作体验。
LangBuddy AI 是一个强大的 Chrome 扩展程序,旨在直接在浏览器中增强您的日语学习体验。它提供即时文本翻译、详细的汉字解析、同义词发现、阅读访问、上下文使用示例和交互式学习辅助,支持在任何网站上使用。
Beepbooply是一个尖端的AI语音生成器,利用先进的AI技术将文本转化为语音,支持900多种声音和80种语言,适用于多种音频内容的高效创建。
Voicemaker是一个文本转语音转换器,利用AI技术生成多种语言和方言的自然声音,支持语音效果、速度、音调等多项自定义选项,已在120多个国家拥有超过110万用户,转换超过1亿个字符。
VoiceLingo是一款iOS应用,允许用户将自己的声音转换为多种语言的音频。用户只需录音并选择目标语言,应用便会生成相应的音频输出,方便进行语言学习和交流。
Speaking AI是一个生成语音的基础模型测试版,用户可以通过仅需3秒的输入捕捉到自己独特的音调,实现自然的声音质量。
Narrator是一个平台,允许用户将自己喜欢的电子书转换成引人入胜的有声书。用户只需上传多种格式的电子书(epub、pdf、txt、rtf、docx),便可享受沉浸式的音频体验。同时,Narrator还支持将这些有声书转换为方便的m4a文件。此外,用户还可以创建和收听书籍摘要。
OpenChit是一款支持文本和语音的原生AI聊天客户端,具有文本转语音播放功能(支持Siri和Azure TTS)。用户可以通过键入或语音命令与AI进行互动,并通过文本转语音功能收听AI的回复。
DraftMate 是一款人工智能驱动的工具,帮助用户轻松撰写各种文本,并且能够方便地分享、保存和搜索草稿。它提供了一系列尖端功能,以提升写作体验,并提供全天候客户支持。
LLaVaVision是一款类似AI 'Be My Eyes' 的Web应用程序,利用llama.cpp后端提供高效的视觉辅助服务,旨在帮助视力障碍用户通过实时图像识别与远程志愿者互动,提升生活质量。