一个基于深度学习的中文语音合成项目,通过采集分析一段具体的声音样本,可在 5 秒内生成与之类似的克隆语音。
阿里巴巴云计算推出的大型音频语言模型,能够接受各种音频信号输入,并根据语音指令进行音频分析或直接生成文本回复,为对话系统和音频处理任务提供强大支持。
来自香港科技大学的音乐创作项目,能够只通过文本的方式理解和创作音乐,无需依赖于任何专门的多模式处理或复杂的编码系统。
该项目展示了如何使用Transformers.js在浏览器中进行AI推理,特别是图像背景去除和语音识别,支持WebGPU加速,保证数据隐私,适合需要实时处理的应用。
NotebookLlama 是 Meta 发布的开源项目,专注于将 PDF 文档转换为播客音频的工作流程。它提供了详细的教程和工具链,支持从 PDF 提取文本、改写为播客脚本、增强脚本表现力,并最终生成自然对话风格的播客音频。
Luna AI 是一个全自动的 AI 直播系统,由多种 AI 模型驱动的虚拟主播,能够实时与观众互动并聊天。它支持多种直播平台,能够生成自然语言的回答并进行语音交流。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。
VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型,能够理解图片和视频内容,并用语音回答用户的问题。
Grad-SVC是一个基于Grad-TTS的歌唱声音转换项目,采用HUAWEI Noah's Ark Lab的技术,核心算法为扩散,旨在提供高质量的歌唱声音转换,支持多种风格和情感的声音转换,具有用户友好的界面和详细的文档支持。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
Bilibot是一个基于B站用户评论微调训练的本地聊天机器人,支持文字聊天和通过questions.txt生成针对特定问题的语音对话,旨在提供更加自然的互动体验。
与大型语言模型进行自然语音对话的开源工具,支持多种语音识别、语音合成和语言模型,提供易用且可扩展的API,目标成为闭源商业实现的开源替代方案
EasyBertVits2是一个简化了Bert-VITS2模型使用的工具,可以从文章生成富有情感的语音,提供高质量的语音合成,便于开发者和用户使用。
音源分离训练推理WebUI:一个集成了音源分离训练框架和UVR(终极人声消除器)的Web界面,让你能自定义处理流程,轻松安装模型并进行音乐源分离
ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口,集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术,旨在提供一种互动性强的用户体验。
AudioCraft是一个基于深度学习的音频处理与生成库,旨在提供先进的音频压缩、生成和实验功能。
这是一个能够将一种歌声转换为另一种歌声的模型,支持任意源歌声到任意目标歌声的转换,基于神经网络实现高效的声线合成,并能处理多种音频格式,提供用户友好的接口和文档。
Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具,提供翻译和转录两个任务,可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕,同时Buzz自带GUI界面,使用操作简单。
一个强大的 AI 音频生成模型,专注于文本到音频的生成,解决了高质量文本音频对数据集的缺乏和长连续音频数据建模的复杂性问题。
april-asr是一个用C语言开发的语音转文本(STT)库,具备高效的语音识别算法和实时转录功能,支持多种语言,具有可扩展的架构,便于集成到其他项目中,适用于多种应用场景。
Moshi是由Kyutai Labs开发的语音到语音模型的演示项目,托管在Modal的GPU上,并提供了一个命令行客户端以实现实时对话。
VoiceCraft 是一个基于令牌填充的神经编解码语言模型,在野生数据集上的语音编辑和零样本文本到语音(TTS)转换方面达到了最先进的性能。
MMAudio是一个视频自动配音工具,能够根据输入的视频或文本提示生成与视频内容相符合的音效,同时保持与视频画面动作同步对齐。
WhisperLive是OpenAI的Whisper的近实时实现,通过语音活动检测(VAD)仅在检测到语音时发送音频数据到Whisper模型,从而减少数据传输并提高转录准确性。
VocalForge是一个端到端的工具包,专为语音数据集创建而设计,旨在大幅减少为TTS模型、热词检测模型等创建数据集的时间,提高音频数据筛选的效率,并支持多种语音数据集格式。
基于GPT4-o的模块化开源语音转文字再转语音的解决方案,支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程,旨在提供高度模块化和可定制的语音交互体验
一个基于 Realtime API 的参考实现,帮助开发者快速构建和协调多代理模式的语音应用。该项目支持灵活的多代理协调机制,能够在客户服务、前台接待等场景中展示实际应用案例,并通过定义状态机提高模型的指令遵循能力。开发者可以在20分钟内快速原型化语音应用,使用更新的 WebRTC 接口实现低延迟的实时交互,同时享受开源带来的实现细节与工具集分享。
基于Gradio的WebRTC实时流媒体组件,支持网络摄像头视频流处理、服务器到客户端的视频/音频流传输、双向音频对话等功能,可用于构建实时对象检测、语音对话等AI应用,支持视频实时处理和音频流交互
whisperfile是一个基于llamafile的语音识别服务器构建工具,支持多种操作系统和CPU架构,提供快速启动和音频转换功能,旨在简化语音识别服务器的搭建过程。
Infini-Megrez是全球首个端侧全模态理解模型,能够同时处理图像、音频和文本数据,具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值,支持场景理解、OCR、中英文语音输入及多轮对话等功能,适用于多种复杂场景下的数据理解和分析。