OpenAI的Whisper高质量语音识别模块C/C++移植版,支持在iOS和Android上运行,提供真人级别的识别效果,完全免费,具有开源、低内存和跨平台特性,适合资源受限环境。
textlesslib是一个专为无文本口语处理设计的库,集成了多种先进的AI模型,提供高效的音频特征提取,支持多种语言的处理,且开放源代码,易于扩展。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
Talk-to-ChatGPT是一个Google Chrome扩展,允许用户通过语音命令与ChatGPT AI互动,并接收语音回复。用户只需安装扩展并激活麦克风,就可以开始提问或与AI进行对话,同时通过文本转语音功能收听AI的回复。
实时AI变声工具
Babylon Voice 是一个基于语音识别技术的网络应用,用户可以通过语音命令与其功能进行交互,提升工作效率,并增强无障碍体验。
femtoGPT 是一个使用纯 Rust 编写的最小生成预训练 Transformer 实现,旨在提供轻量级、高效的自然语言生成能力,易于集成和扩展,适合各种机器学习应用。
Lucyd是一款移动应用,允许用户通过语音查询ChatGPT,听取响应,无需打字或阅读。只需下载应用,激活语音助手,便可开始使用。
Funny Duck是一个应用程序和平台,可以增强手机语音助手的功能,使其能够控制电脑、智能家居和DIY物联网设备。
EchoFox是一款创新的AI工具,旨在改变我们与WhatsApp语音消息的互动方式。它作为个人转录器,轻松将语音消息转换为文本,让用户无需收听长音频即可快速阅读和理解。该工具针对个人用户和商业专业人士,旨在提升时间管理和生产力,确保跨语言的无缝沟通。EchoFox使得跟踪语音消息变得更加简单,是任何希望优化WhatsApp沟通的人的必备工具。