Diart是一个优化方案的代码实践,构建在pyannote-audio模型之上,旨在实时识别不同的说话人,特别适用于实时音频流(如来自麦克风)的场景。
S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱,基于Pion、whisper.cpp和Coqui TTS构建。
Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
GPT-4o click to start是一个免费的GPT-4O驱动产品,提供与GPT-4相同水平的智能,配备强大的语音服务API,能够进行实时文本、视觉和音频处理。
Ai Sofiya是一款先进的AI工具,提供社交媒体广告文案生成和文本转语音转换两大主要功能。它利用强大的AI算法,快速生成各个平台的吸引人广告文案,帮助企业节省时间和精力。此外,它还提供超过840种现实语音的文本转语音服务,支持135种语言和方言。
Voiser是一个基于AI的平台,提供75种语言的精准语音转文本和自然发音的文本转语音服务,非常适合内容创作者、播客和寻求高质量配音和转录的企业使用。
Voicefy是一个直观的平台,可以将文本转换为逼真的语音,提供多种语言和声音,以最大化内容的可访问性和互动性。用户只需将文本输入框中,选择所需的语言和声音,点击‘转换’按钮生成语音,然后点击‘播放’按钮收听语音,此外,还可以将语音下载为音频文件。
Audiogen Codec (agc)是一个开源的音频编解码器,提供低压缩率的48khz立体声神经音频编解码,适用于一般音频,旨在优化音频保真度。
OpenChit是一款支持文本和语音的原生AI聊天客户端,具有文本转语音播放功能(支持Siri和Azure TTS)。用户可以通过键入或语音命令与AI进行互动,并通过文本转语音功能收听AI的回复。
基于Gradio的WebRTC实时流媒体组件,支持网络摄像头视频流处理、服务器到客户端的视频/音频流传输、双向音频对话等功能,可用于构建实时对象检测、语音对话等AI应用,支持视频实时处理和音频流交互
webrtc-streamer是一个WebRTC流媒体服务器,允许通过WebRTC从各种源进行视频和音频流传输。它支持RTSP、RTMP等多种流媒体协议,可与多个流媒体服务器(如Janus Gateway、SRS和ZLMediaKit)配合使用,具备低延迟流媒体能力,易于与Web应用集成,实现实时通信,并支持TURN服务器以便进行NAT穿越。
Macbeth.ai是一个强大的AI助手,旨在提升用户的生产力和节省时间。它提供多种AI工具,适用于各种使用场景。用户只需选择所需的工具,告诉AI需要生成的内容,然后验证并完善生成的内容,以满足需求。
Janus Gateway 是一个通用的 WebRTC 服务器,旨在提供多种实时通信功能。它支持各种音视频流媒体,并具有插件架构,允许开发者扩展功能。Janus Gateway 提供多路复用和混音功能,支持视频会议、视频直播和音频通话,能够与现有的 SIP 和其他协议集成,适合构建复杂的实时通信应用。
一个基于 Realtime API 的参考实现,帮助开发者快速构建和协调多代理模式的语音应用。该项目支持灵活的多代理协调机制,能够在客户服务、前台接待等场景中展示实际应用案例,并通过定义状态机提高模型的指令遵循能力。开发者可以在20分钟内快速原型化语音应用,使用更新的 WebRTC 接口实现低延迟的实时交互,同时享受开源带来的实现细节与工具集分享。
RTVI-AI是一个新型的开放标准,旨在实现实时语音和视频推理。该项目提供了开源的JavaScript和React SDK,目前已可用,iOS、Android及其他平台的SDK也将在不久后推出。
Melobytes.com是一个在线平台,提供多种AI驱动的创意工具,帮助用户探索艺术、音乐等领域的边界。通过简单易用的应用程序,用户可以为自己和朋友创造独特有趣的内容,可能性无穷无尽!
GPTSidekick是一个由GPT-4和Claude 3驱动的AI助手,提供多种功能,适合内容创作、研究辅助、语言翻译和数据分析等需求。用户可以通过简单的注册流程,选择合适的套餐,便捷地访问其强大的功能。
ObEN人工智能是一个尖端平台,专注于虚拟形象生成、文本转语音、声音转换和图像增强。利用先进的AI技术,ObEN提供了一系列创新解决方案,用于创建个性化的虚拟形象,提升沟通体验,以及转化图像。