Seekr是由香港初创公司Vidi Labs开发的AI可穿戴设备,专为视障者和老年人设计。通过深度感知摄像头和智能手机App实时播报周围场景信息,帮助用户独立感知和导航世界。设备灵感源于创始人祖父的实际需求,曾获2025 CES创新奖提名,已与香港多家非政府组织合作推广。
EyePilot是一个基于眼动手势的辅助桌面窗口应用程序,使用户能够仅通过凝视来操作桌面。该项目目前正在寻求赞助,欢迎通过polar支持我们。
基于GPT4-o的模块化开源语音转文字再转语音的解决方案,支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程,旨在提供高度模块化和可定制的语音交互体验
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
Text2Audio是一个简单的在线文本转语音(TTS)工具,可以将文本生成MP3音频文件。用户可以直接在网页中播放或下载音频文件。只需输入或粘贴希望听的文本,Text2Audio就会为您朗读。
Voiser是一个基于AI的平台,提供75种语言的精准语音转文本和自然发音的文本转语音服务,非常适合内容创作者、播客和寻求高质量配音和转录的企业使用。
Voicefy是一个直观的平台,可以将文本转换为逼真的语音,提供多种语言和声音,以最大化内容的可访问性和互动性。用户只需将文本输入框中,选择所需的语言和声音,点击‘转换’按钮生成语音,然后点击‘播放’按钮收听语音,此外,还可以将语音下载为音频文件。
OpenAudio TTS是一个开源工具,可以将文本转换为生动的语音,支持高质量的语音合成,允许用户控制语音速度,且可以即时下载。用户需要提供自己的OpenAI API密钥,且该工具不保留数据,允许用户自由定制,适用于各种项目。
ElevenLabs在语音合成领域处于前沿,提供先进的AI语音生成和文本转语音功能,旨在为内容创作者和企业提供简化的自然语言语音转换体验。用户可以创造出极具真实感的配音、有声书及任何形式的口语内容。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
Spakfly是一款能够将任何文本转换为100%人声的语音软件,适用于视频销售信、教育视频、营销视频、培训视频、有声书等多种场景。用户只需注册账号,选择语言和声音,输入文本,定制语音设置,然后生成并下载语音文件。
EasyBertVits2是一个简化了Bert-VITS2模型使用的工具,可以从文章生成富有情感的语音,提供高质量的语音合成,便于开发者和用户使用。
openai-edge-tts 是一个开源免费的文本转语音 API,利用微软 Edge 的在线语音服务,能够生成多种语音选项和播放速度,用户无需付费即可体验高质量的文本转语音功能。
PlayHT是一款前沿的AI语音生成器,将文本转化为逼真的人声,适用于个人和专业项目。它支持多种语言和口音,能够为游戏角色配音、叙述故事以及制作视频配音,极大地简化了文本到语音的转换过程。
Auribus Labs是一个AI研究与产品实验室,致力于通过可及的、创新的AI驱动解决方案构建未来听力技术。他们开发了全球首个由AI驱动的听觉训练平台,旨在通过增强沟通能力和整体生活质量来重新定义听觉训练和康复。
VoiceAI Chat是一个支持文本和语音输入的用户友好型AI聊天应用,能够识别并转录口语为文本。用户可选择文本或语音作为输入方式,语音输入时只需点击麦克风图标并开始说话,应用会将语音转录为文本并显示在聊天框中。
AI实时变声工具