AI音频工具 | 第 35 页 | AI-magic

AI音频工具

Realtime Voice Clone Chinese开源项目 – 基于深度学习的快速中文语音克隆

Realtime Voice Clone Chinese开源项目 – 基于深度学习的快速中文语音克隆

一个基于深度学习的中文语音合成项目，通过采集分析一段具体的声音样本，可在 5 秒内生成与之类似的克隆语音。

中文语音克隆快速语音生成深度学习语音合成语音助手应用

Qwen2-Audio开源项目 – 大型音频语言模型，支持音频分析与文本回复

Qwen2-Audio开源项目 – 大型音频语言模型，支持音频分析与文本回复

阿里巴巴云计算推出的大型音频语言模型，能够接受各种音频信号输入，并根据语音指令进行音频分析或直接生成文本回复，为对话系统和音频处理任务提供强大支持。

大型音频语言模型客服系统文本回复语音交互学习工具

ChatMusician-文本创作音乐的创新项目

来自香港科技大学的音乐创作项目，能够只通过文本的方式理解和创作音乐，无需依赖于任何专门的多模式处理或复杂的编码系统。

AI音乐应用开发文本生成音乐音乐创作AI音乐教育辅助工具

transformers.js-examples开源项目 – 浏览器内推理的 AI 示例项目

transformers.js-examples开源项目 – 浏览器内推理的 AI 示例项目

该项目展示了如何使用Transformers.js在浏览器中进行AI推理，特别是图像背景去除和语音识别，支持WebGPU加速，保证数据隐私，适合需要实时处理的应用。

AI图像处理WebGPU加速数据隐私浏览器内推理

NotebookLlama开源项目 – PDF转播客工作流

NotebookLlama开源项目 – PDF转播客工作流

NotebookLlama 是 Meta 发布的开源项目，专注于将 PDF 文档转换为播客音频的工作流程。它提供了详细的教程和工具链，支持从 PDF 提取文本、改写为播客脚本、增强脚本表现力，并最终生成自然对话风格的播客音频。

AI语音合成PDF转播客开源项目播客制作工具

Luna AI开源项目 – 全自动 AI 直播系统

Luna AI开源项目 – 全自动 AI 直播系统

Luna AI 是一个全自动的 AI 直播系统，由多种 AI 模型驱动的虚拟主播，能够实时与观众互动并聊天。它支持多种直播平台，能够生成自然语言的回答并进行语音交流。

AI直播系统变声功能图像生成实时互动

Whisper开源项目 – 语音转文字的Windows应用

Whisper开源项目 – 语音转文字的Windows应用

Whisper是一个基于whisper.cpp的Windows应用，旨在方便普通用户进行语音转文字转换，具有高效、无依赖的特点，能够满足日常使用需求。

Windows语音识别语音转文字应用高效语音转换工具

VITA开源项目 – 开源实时视觉语音交互模型

VITA开源项目 – 开源实时视觉语音交互模型

VITA是一个接近GPT-4o级别的开源实时视觉语音交互模型，能够理解图片和视频内容，并用语音回答用户的问题。

实时语音识别开源实时视觉语音交互模型自然语言对话语音问答

Grad-SVC-基于Grad开源项目 – TTS的歌唱声音转换

Grad-SVC-基于Grad开源项目 – TTS的歌唱声音转换

Grad-SVC是一个基于Grad-TTS的歌唱声音转换项目，采用HUAWEI Noah's Ark Lab的技术，核心算法为扩散，旨在提供高质量的歌唱声音转换，支持多种风格和情感的声音转换，具有用户友好的界面和详细的文档支持。

Grad-TTS多风格声音转换歌唱声音转换用户友好界面

Huggingface Distil-Whisper开源项目 – 蒸馏版Whisper，快速高效的语音识别

Huggingface Distil-Whisper开源项目 – 蒸馏版Whisper，快速高效的语音识别

Distil-Whisper是一个令人印象深刻的AI模型，相较于Whisper，它提供了更快的推理速度和更小的模型体积，速度提高了6倍，体积减少了49%，在分布外评估集上表现也具有竞争力。

实时语音转文本批量处理音频文件移动设备语音识别聊天机器人集成

bilibot开源项目 – B站聊天机器人，支持文字及语音对话

bilibot开源项目 – B站聊天机器人，支持文字及语音对话

Bilibot是一个基于B站用户评论微调训练的本地聊天机器人，支持文字聊天和通过questions.txt生成针对特定问题的语音对话，旨在提供更加自然的互动体验。

B站聊天机器人开源项目微调训练自然语言处理

OpenVoiceChat开源项目 – 开源自然语音对话工具

OpenVoiceChat开源项目 – 开源自然语音对话工具

与大型语言模型进行自然语音对话的开源工具，支持多种语音识别、语音合成和语言模型，提供易用且可扩展的API，目标成为闭源商业实现的开源替代方案

开源自然语音对话工具聊天机器人语音助手语音合成

EasyBertVits2-简化Bert开源项目 – VITS2模型使用的工具

EasyBertVits2-简化Bert开源项目 – VITS2模型使用的工具

EasyBertVits2是一个简化了Bert-VITS2模型使用的工具，可以从文章生成富有情感的语音，提供高质量的语音合成，便于开发者和用户使用。

Bert-VITS2模型情感语音生成文本到语音合成语音合成工具

MSST-WebUI开源项目 – 音源分离训练推理的Web界面

MSST-WebUI开源项目 – 音源分离训练推理的Web界面

音源分离训练推理WebUI：一个集成了音源分离训练框架和UVR（终极人声消除器）的Web界面，让你能自定义处理流程，轻松安装模型并进行音乐源分离

UVR人声消除器模型安装与管理自定义音频处理音源分离训练Web界面

ProtoReplicant开源项目 – 浏览器中的AI 3D化身语音接口

ProtoReplicant开源项目 – 浏览器中的AI 3D化身语音接口

ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口，集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术，旨在提供一种互动性强的用户体验。

AI 3D化身大语言模型文本转语音虚拟角色模型

AudioCraft开源项目 – 深度学习音频处理与生成库

AudioCraft开源项目 – 深度学习音频处理与生成库

AudioCraft是一个基于深度学习的音频处理与生成库，旨在提供先进的音频压缩、生成和实验功能。

可控音乐生成深度学习音频处理音频压缩工具音频生成库

Neural Concatenative Singing Voice Conversion开源项目 – 任意歌声转换模型

Neural Concatenative Singing Voice Conversion开源项目 – 任意歌声转换模型

这是一个能够将一种歌声转换为另一种歌声的模型，支持任意源歌声到任意目标歌声的转换，基于神经网络实现高效的声线合成，并能处理多种音频格式，提供用户友好的接口和文档。

任意歌声转换模型实时音频转换神经网络声线合成自定义训练模型

Buzz开源项目 – 实时语音转文字工具

Buzz开源项目 – 实时语音转文字工具

Buzz是一款基于OpenAI Whisper的开源、可离线的实时语音转文字工具，提供翻译和转录两个任务，可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕，同时Buzz自带GUI界面，使用操作简单。

Whisper兼容工具实时语音转文字工具开源语音转录音频翻译工具

Make-An-Audio开源项目 – 强大的文本到音频生成模型

Make-An-Audio开源项目 – 强大的文本到音频生成模型

一个强大的 AI 音频生成模型，专注于文本到音频的生成，解决了高质量文本音频对数据集的缺乏和长连续音频数据建模的复杂性问题。

个性化音频生成图片转音频文本到音频生成模型视频转音频

april-asr开源项目 – C语言写的语音转文本库

april-asr开源项目 – C语言写的语音转文本库

april-asr是一个用C语言开发的语音转文本(STT)库，具备高效的语音识别算法和实时转录功能，支持多种语言，具有可扩展的架构，便于集成到其他项目中，适用于多种应用场景。

C语言开发多语言支持实时语音识别嵌入式系统

Moshi开源项目 – 实时语音到语音转换项目

Moshi开源项目 – 实时语音到语音转换项目

Moshi是由Kyutai Labs开发的语音到语音模型的演示项目，托管在Modal的GPU上，并提供了一个命令行客户端以实现实时对话。

GPU处理命令行客户端实时语音转换语音到语音模型

VoiceCraft开源项目 – 先进的语音编辑与转换工具

VoiceCraft开源项目 – 先进的语音编辑与转换工具

VoiceCraft 是一个基于令牌填充的神经编解码语言模型，在野生数据集上的语音编辑和零样本文本到语音（TTS）转换方面达到了最先进的性能。

自然语音生成语音克隆语音编辑工具零样本文本到语音转换

MMAudio开源项目 – 视频自动配音工具

MMAudio开源项目 – 视频自动配音工具

MMAudio是一个视频自动配音工具，能够根据输入的视频或文本提示生成与视频内容相符合的音效，同时保持与视频画面动作同步对齐。

AI生成音效开源音频工具视频自动配音工具

WhisperLive开源项目 – 近实时的语音转文本服务

WhisperLive开源项目 – 近实时的语音转文本服务

WhisperLive是OpenAI的Whisper的近实时实现，通过语音活动检测(VAD)仅在检测到语音时发送音频数据到Whisper模型，从而减少数据传输并提高转录准确性。

实时转录教育工具转录虚拟会议字幕语音活动检测

VocalForge开源项目 – 一站式语音数据集创建工具

VocalForge开源项目 – 一站式语音数据集创建工具

VocalForge是一个端到端的工具包，专为语音数据集创建而设计，旨在大幅减少为TTS模型、热词检测模型等创建数据集的时间，提高音频数据筛选的效率，并支持多种语音数据集格式。

TTS模型数据集生成热词检测模型数据集生成语音数据集创建工具音频数据筛选与标注

speech-to-speech开源项目 – 开源语音转语音助手

speech-to-speech开源项目 – 开源语音转语音助手

基于GPT4-o的模块化开源语音转文字再转语音的解决方案，支持语音活动检测、语音转文字、语言模型交互和文字转语音的连续流程，旨在提供高度模块化和可定制的语音交互体验

个性化语音助手客服系统开源语音助手教育应用

OpenAI Realtime Agents开源项目 – 多代理语音应用的快速构建工具

OpenAI Realtime Agents开源项目 – 多代理语音应用的快速构建工具

一个基于 Realtime API 的参考实现，帮助开发者快速构建和协调多代理模式的语音应用。该项目支持灵活的多代理协调机制，能够在客户服务、前台接待等场景中展示实际应用案例，并通过定义状态机提高模型的指令遵循能力。开发者可以在20分钟内快速原型化语音应用，使用更新的 WebRTC 接口实现低延迟的实时交互，同时享受开源带来的实现细节与工具集分享。

多代理语音应用实时交互客户服务开源工具

gradio-webrtc开源项目 – 实时流媒体组件，支持视频和音频交互

gradio-webrtc开源项目 – 实时流媒体组件，支持视频和音频交互

基于Gradio的WebRTC实时流媒体组件，支持网络摄像头视频流处理、服务器到客户端的视频/音频流传输、双向音频对话等功能，可用于构建实时对象检测、语音对话等AI应用，支持视频实时处理和音频流交互

GradioWebRTC实时对象检测实时流媒体组件

whisperfile开源项目 – 语音识别服务器构建工具

whisperfile开源项目 – 语音识别服务器构建工具

whisperfile是一个基于llamafile的语音识别服务器构建工具，支持多种操作系统和CPU架构，提供快速启动和音频转换功能，旨在简化语音识别服务器的搭建过程。

语音识别服务器构建工具跨平台部署音频转换

Infini-Megrez开源项目 – 端侧全模态理解模型

Infini-Megrez开源项目 – 端侧全模态理解模型

Infini-Megrez是全球首个端侧全模态理解模型，能够同时处理图像、音频和文本数据，具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值，支持场景理解、OCR、中英文语音输入及多轮对话等功能，适用于多种复杂场景下的数据理解和分析。

图像识别文本理解端侧全模态理解模型音频信号分析

1 … 33 34 35 36 37 … 72

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3