AI音频工具 | 第 2 页

music_source_separation开源 – PyTorch实现的音乐源分离工具

该项目是一个基于PyTorch框架的音乐源分离系统，能够将音乐混合文件分离为人声、低音、鼓声、其他声部和背景音。支持UNet、BSRoformer等多种模型架构，提供从环境配置、数据集下载到模型训练和音乐分离的完整流程。使用musdb18hq数据集（约30GB），训练时间约3小时（单RTX4090，10万步），适合深度学习开发者和音乐处理爱好者。

0

Pytorch音频处理开源音频处理项目深度学习音乐分离音乐源分离工具

IndexTTS官网 – 工业级中文零样本TTS系统

IndexTTS是基于大型语言模型（LLM）的先进文本转语音系统，专为中文场景优化。它采用字符-拼音混合建模解决多音字问题，集成BigVGAN2解码器提升音质，支持零样本语音克隆和标点控制停顿。相比XTTS、Fish-Speech等系统，其训练更简单、推理更快，在自然度和语音克隆相似度上表现优异。

0

BigVGAN2解码器中文文本转语音系统影视配音自动化语音助手生成

Centaurus开源 – 高效音频处理神经网络

Centaurus是一种由广义状态空间模型（SSM）块组成的新型神经网络，其设计灵感来源于卷积神经网络（CNN）。通过将SSM操作视为训练期间的张量收缩，并优化张量收缩顺序，Centaurus显著提高了训练效率。它在网络大小、性能、内存和计算效率之间取得了平衡，尤其在音频处理任务中表现优异，包括关键词识别、语音去噪和自动语音识别（ASR）。Centaurus是首个完全基于状态空间的ASR网络，无需依赖非线性递归（如LSTMs）、显式卷积（CNNs）或注意力机制，仍能实现竞争性能。

0

关键词识别状态空间模型自动语音识别语音去噪

mini_source_separation开源 – 小型音乐源分离工具

这是一个基于深度学习的小型音乐源分离项目，主要使用U-Nets模型进行盲源分离。项目训练于musdb数据集的100首歌曲，能够将音乐混合信号分离为人声和伴奏两部分。该项目注重易用性和直观性，适合初学者学习和使用，但由于训练数据有限，可能不具备商业级性能。

0

U-Nets模型实现人声伴奏分离深度学习音频处理音乐源分离工具

IndexTTS开源 – 工业级中文零样本TTS系统

IndexTTS是基于XTTS和Tortoise模型的先进文本转语音系统，专为中文场景优化。通过字符-拼音混合建模解决多音字问题，集成BigVGAN2提升音质，零样本语音克隆MOS达4.01分，音色相似度0.776。目前代码未完全公开，需联系团队获取使用权限。

0

BigVGAN2音质优化中文文本转语音系统多语言语音合成零样本语音克隆

Centaurus网络论文 – 基于张量优化的音频处理SSM网络

Centaurus是一种将状态空间模型(SSMs)视为卷积神经网络(ConvNets)的新型网络架构，通过优化的张量收缩顺序提升训练效率。其核心创新在于将SSM块操作框架化为张量运算，并融合经典ConvNet设计理念（如分组卷积和瓶颈块），形成异构网络结构。该网络在保持参数效率的同时，在音频处理任务中展现出卓越性能，且是首个完全基于状态空间模型（不依赖LSTM/CNN/注意力机制）却达到竞争力的ASR性能的模型。

0

状态空间模型优化语音识别框架边缘设备音频分析音频处理SSM网络

Multimodal Iterative LLM Solver (MILS)开源 – 无需训练的多模态AI框架

MILS是由Meta AI开发的创新框架，通过结合大型语言模型（LLM）的推理能力和现有多模态模型，实现零样本多模态学习。它无需额外训练即可处理图像、视频和音频数据，在描述任务中达到最先进水平，并支持媒体生成和跨模态运算。

0

LLM推理图像描述多模态AI框架视频描述

Music LLM官网 – 音乐生成与文本转语音整合系统

Music LLM 是一个基于 PyTorch 的音乐生成和文本转语音（TTS）整合系统，使用以 LLaMA 为基础的大型语言模型（LLM）。其音乐生成部分可在单张 RTX 4090 GPU 上高效训练，耗时不到 10 小时，适合资源有限的研究环境。项目可能整合了现有开源项目如 ChatMusician（音乐生成）和 Llasa-8B（TTS），但具体整合方式尚不明确。

0

PyTorch实现单GPU训练基于LLaMA的AI模型文本转语音整合

BrowserAI开源 – 浏览器本地AI模型运行平台

BrowserAI 是一个开源项目，允许用户在浏览器中直接运行本地 AI 模型，无需服务器支持，从而实现快速推理并保护隐私。该项目特别适合需要隐私保护和低成本解决方案的用户，支持现代浏览器如 Chrome 113+ 或 Edge 113+。BrowserAI 提供了多种功能，如文本生成、语音识别、文本转语音等，并且支持 WebGPU 加速和离线使用，确保高性能和便捷性。

0

WebGPU加速文本生成文本转语音浏览器本地AI模型运行平台

F5_TTS_Faster开源 – 加速F5-TTS推理的工具

F5_TTS_Faster 是一个专为加速 F5-TTS 推理设计的工具，通过使用 ONNX 和 Tensorrt-LLM 技术，将推理时间从 3.2 秒减少到 0.72 秒，支持 NVIDIA Geforce RTX 3090。该项目提供了详细的安装和使用指南，支持 Windows 操作系统，兼容 Intel/AMD/Nvidia GPU，并提供了多种设备选项和优化技术，如 OpenVINO 和 TensorRT，以提升性能。此外，项目还提供了简单的 GUI 版本，方便用户操作。

0

F5-TTS推理加速ONNX和TensorRT优化开源TTS工具文本转语音加速工具

MNN LLM App开源 – Android 多模态大语言模型应用

MNN LLM App 是一个专为 Android 设备设计的多模态大语言模型应用，支持文本、图像、音频等多种任务。它基于阿里巴巴的 MNN 框架，优化了 CPU 推理，预填充速度比 llama.cpp 快 8.6 倍，解码速度快 2.3 倍，兼容多种主流模型如 Qwen、Gemma 和 Llama。该应用在设备本地运行，确保用户隐私，无需上传数据，特别适合需要离线处理的场景。

0

Android多模态大语言模型应用本地CPU推理优化离线AI任务处理

PengChengStarling开源 – 高效多语言语音识别模型

PengChengStarling是一个基于icefall项目的多语言自动语音识别（ASR）模型，支持8种语言，模型大小仅为Whisper-Large v3的20%，推理速度提升7倍，并提供完整的ASR流程支持。该项目适合实时转录和语音到文本应用，具有高效、快速和低资源需求的特点。

0

低资源需求多语言语音识别模型实时转录语音到文本应用

GigaMIDI Dataset模型 – 音乐生成领域的大型数据集

GigaMIDI Dataset 是音乐生成领域的一个大型数据集，包含约143万MID文件，提供了详细的元数据和预训练模型，并引入了新的循环检测和音乐表现力评估指标。该数据集旨在支持音乐生成、分析和性能评估的研究，特别适用于机器学习模型的训练和符号音乐处理的深入研究。

0

MIDI处理机器学习训练符号音乐处理音乐生成数据集

通义听悟官网 – 阿里云的音频视频转文字助手

通义听悟是由阿里云推出的一款专注于将音频和视频内容实时转录为文字的AI助手。它支持多种语言，提供翻译、总结、定位等功能，帮助用户高效记录和阅读音频视频内容。该工具适用于工作场景（如会议记录）和学习场景（如讲座转录），并通过APP、微信小程序和网站提供多平台支持。

0

会议记录助手多语言转录学习辅助工具视频转文字工具

biji.com官网 – 方言与短视频识别平台

biji.com 是一个专注于语言和视频处理的平台，提供地方方言识别和短视频链接识别服务，并通过微信小程序增强用户体验。该项目旨在解决中国用户在多语言环境和视频内容处理方面的需求，适合跨方言沟通和短视频内容分析。

0

微信小程序集成方言识别短视频内容分析

Hallo模型 – 音频驱动的肖像动画模型

Hallo 是一个由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队共同开发的音频驱动肖像图像动画模型。它通过音频输入生成逼真的动画肖像，特别适用于需要动态面部表情和唇形同步的场景。该模型的核心技术包括 ReferenceNet、Face Encoder、Audio Encoder、UNet Denoiser 和 Temporal Alignment，能够生成高质量、逼真的动画形象。

0

互动教学工具影视面部动画游戏角色动画虚拟偶像生成

Mirasol3B官网 – 多模态自回归模型

Mirasol3B 是由 Google 开发的多模态自回归模型，能够处理视频、音频和文本三种数据类型。它由视频-音频自回归模型、文本自回归模型和多模态融合模型三部分组成，能够处理时间对齐的模态（如视频和音频）以及非时间对齐的模态（如文本）。研究表明，Mirasol3B 在多模态任务中表现出色，例如视频-文本检索、音频-文本检索和视频-音频检索等。该模型是闭源的，详细信息仅通过 Google 博客文章和研究论文获取。

0

Google AI模型多模态自回归模型视频-音频-文本处理

Translatotron 3官网 – 无监督语音到语音翻译系统

Translatotron 3 是由 Google 研究团队开发的直接语音到语音翻译系统，通过自监督和对抗学习从未标记的语音和文本数据中学习，无需成对数据。系统结合了掩码自编码器、无监督嵌入映射和反向翻译三种技术，实现了无监督语音到语音翻译。其在某些公共数据集上的表现优于基线级联系统，并能保留非语言信息如停顿、语速和说话者身份，展示了无监督翻译的巨大潜力。

0

无监督学习自动配音语音翻译跨语言通信

NVIDIA Broadcast App官网 – AI提升音视频质量

NVIDIA Broadcast App 是一款由 NVIDIA 开发的应用程序，通过 AI 技术提升直播和远程会议的音视频质量。它集成了多种 AI 功能，如麦克风降噪、房间回声消除、虚拟背景等，无需昂贵设备即可实现高质量效果。该应用特别适合需要专业音视频效果的用户，支持 Windows 11 64 位系统，并兼容多种流行通信和直播软件。

0

AI音视频增强工具直播音视频优化虚拟背景生成远程会议AI工具

HaiLuo Voice AI官网 – 高质量多语言语音合成

HaiLuo Voice AI 是由 MiniMax 开发的语音 AI 产品，采用 T2A-01-HD 模型，支持 17 种语言和超过 300 种音色。该产品能够生成最多 10,000 字的语音，质量经过严格测试，适用于各种复杂场景。用户可以自定义语音参数，如情感、语速、音高和音色效果。此外，它还支持语音克隆，只需 10 秒音频即可捕捉语音的细微差别和情感底色，适合电影配音、有声书制作和高端虚拟助手的专业应用。

0

多语言语音生成有声书制作电影配音虚拟助手

MaaS Platform官网 – 企业级AI模型部署平台

MaaS Platform 是一种新型人工智能服务平台，旨在通过 API、SaaS 或其他形式将预训练和优化的 AI 模型部署到企业端，并提供给最终用户或公司使用。平台集成了多种开源大模型，如 Llama、Baichuan、Yi、Qwen、AIGC 等，支持从模型选择到部署的全流程开发，涵盖文本、图像、音视频等多模态模型，并提供私有化部署以确保数据安全。

0

AI内容创作工具企业级AI模型部署平台多模态AI模型智能客服系统

Spirit LM开源项目 – 混合语音与文本的多模式语言模型

Spirit LM是由Meta开源的多模式语言模型，能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型，通过词级交错方法扩展到语音模式，使用子词BPE标记进行文本编码，并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集，利用自动策划的语音-文本平行语料库，同时学习语音和文本特征。模型还使用特殊标记区分文本和语音，并在训练中随机触发模态变化，使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本：基础版和表现力版，分别专注于语音语义单元和表达性语音合成。

0

HifiGAN声码器HuBERT模型多模式语言模型文本编码

Suno Music Generator开源项目 – 基于NextJS的音乐生成网站

Suno Music Generator 是一个基于 NextJS 开发的非官方 suno.ai 音乐生成网站。用户可以通过输入 prompt 在一分钟左右生成想要的歌曲。项目通过 JavaScript 逆向工程解析 suno.ai 的 API，并使用 Lemon Squeezy 进行支付。内置了 token 更新和保活功能，确保 token 不会过期。项目支持一键部署，用户可以通过获取 suno.ai 的 cookie 并设置环境变量来快速启动本地开发。

0

API解析JavaScript逆向工程NextJS一键部署

SpeechGPT开源项目 – 多模态大语言模型

SpeechGPT是一个多模态大语言模型，具备跨模态对话能力，能够感知和生成语音与文本内容。它通过将连续的语音信号离散化，实现了语音与文本模态的统一处理。该项目还包括SpeechGPT-Gen，专注于链式信息语音生成。团队还开发了SpeechTokenizer等工具，进一步推动了语音语言模型的发展。

0

多模态大语言模型开源项目语音生成跨模态对话

Oliva Multi-Agent Assistant开源项目 – 开源语音RAG助手

Oliva 是一款开源语音 RAG 助手，能够通过自然语音实现对 Qdrant 向量数据库的实时搜索。它由 Deluxer 团队开发，集成了 Deepgram（语音转文本）和 LiveKit（实时语音通信），支持多智能体协作和语义搜索。Oliva 适用于知识库搜索、智能客服、语音驱动 AI 应用等场景，旨在提升 AI 交互的自然性和效率。

0

LangChain工作流多智能体协作实时语音通信开源语音RAG助手

GPT-4o官网 – 多模态AI模型，支持文本、图像、音频处理

GPT-4o是OpenAI开发的多模态AI模型，集成了文本、图像和音频处理能力。它通过高精度语音转文本和可控的文本转语音技术，帮助开发者解决嘈杂环境下语音识别不准及语音输出缺乏个性化的问题，为构建智能语音代理和高效转录场景提供核心支持。该模型支持多种API调用，包括聊天完成API、助手API和批处理API，适合多种应用场景。

0

图像处理多模态AI模型实时翻译视觉分析

OpenAI.fm官网 – 快速测试文本转语音

OpenAI.fm 是由 OpenAI 开发的交互式平台，专注于文本转语音功能，适合开发者和用户快速测试和体验。平台支持中文，生成速度快，用户可选择音色和气氛，生成自然语音。提供多种语音风格和多语言支持，生成后自动删除文本和音频，确保用户隐私。开发者可通过 API 将功能集成到自己的应用中。

0

AI语音生成OpenAI.fm多语言支持文本转语音

BGM猫官网 – AI背景音乐生成工具

BGM猫是由北京灵动音科技有限公司开发的一款AI音乐生成工具，专注于为用户提供便捷的背景音乐创作体验。用户可以通过选择音乐时长（30秒到5分钟）和标签（如场景、风格、心情）来生成适合视频或片头的音乐。该工具特别适合需要定制音乐的内容创作者，如视频编辑者或社交媒体用户。

0

AI背景音乐生成工具社交媒体音乐创作视频配乐

TME Studio官网 – 腾讯音乐的AI音乐创作助手

TME Studio 是由腾讯音乐娱乐公司（TME）推出的在线AI音乐创作工具，旨在简化音乐创作过程，特别适合音乐爱好者和不熟悉乐理的用户。它集成了多种AI功能，帮助用户更轻松地进行音乐编辑和分享。该工具由TME旗下多个实验室和团队共同打造，包括银河音效、MUSE、天琴实验室和Tencent AI Lab，特别适合不懂乐理的用户，降低了音乐创作的技术门槛。

0

AI音乐创作工具智能曲谱辅助写词音乐分离

音疯官网 – AI音乐创作平台

音疯是由昆仑万维开发的AI音乐创作平台，旨在通过人工智能技术降低音乐创作门槛，为用户提供便捷、高效的音乐创作工具。用户可以通过输入歌词一键生成原创歌曲，或基于参考音乐生成风格相似的作品。平台支持多种音乐风格，如流行、说唱和R&B，适合初学者、独立音乐人及内容创作者。此外，音疯还提供作品上架出售的功能，帮助创作者获得持续收益。

0

AI音乐创作作品商业化原创歌曲生成音乐风格生成