该项目是一个基于PyTorch框架的音乐源分离系统,能够将音乐混合文件分离为人声、低音、鼓声、其他声部和背景音。支持UNet、BSRoformer等多种模型架构,提供从环境配置、数据集下载到模型训练和音乐分离的完整流程。使用musdb18hq数据集(约30GB),训练时间约3小时(单RTX4090,10万步),适合深度学习开发者和音乐处理爱好者。
IndexTTS是基于大型语言模型(LLM)的先进文本转语音系统,专为中文场景优化。它采用字符-拼音混合建模解决多音字问题,集成BigVGAN2解码器提升音质,支持零样本语音克隆和标点控制停顿。相比XTTS、Fish-Speech等系统,其训练更简单、推理更快,在自然度和语音克隆相似度上表现优异。
Centaurus是一种由广义状态空间模型(SSM)块组成的新型神经网络,其设计灵感来源于卷积神经网络(CNN)。通过将SSM操作视为训练期间的张量收缩,并优化张量收缩顺序,Centaurus显著提高了训练效率。它在网络大小、性能、内存和计算效率之间取得了平衡,尤其在音频处理任务中表现优异,包括关键词识别、语音去噪和自动语音识别(ASR)。Centaurus是首个完全基于状态空间的ASR网络,无需依赖非线性递归(如LSTMs)、显式卷积(CNNs)或注意力机制,仍能实现竞争性能。
这是一个基于深度学习的小型音乐源分离项目,主要使用U-Nets模型进行盲源分离。项目训练于musdb数据集的100首歌曲,能够将音乐混合信号分离为人声和伴奏两部分。该项目注重易用性和直观性,适合初学者学习和使用,但由于训练数据有限,可能不具备商业级性能。
IndexTTS是基于XTTS和Tortoise模型的先进文本转语音系统,专为中文场景优化。通过字符-拼音混合建模解决多音字问题,集成BigVGAN2提升音质,零样本语音克隆MOS达4.01分,音色相似度0.776。目前代码未完全公开,需联系团队获取使用权限。
Centaurus是一种将状态空间模型(SSMs)视为卷积神经网络(ConvNets)的新型网络架构,通过优化的张量收缩顺序提升训练效率。其核心创新在于将SSM块操作框架化为张量运算,并融合经典ConvNet设计理念(如分组卷积和瓶颈块),形成异构网络结构。该网络在保持参数效率的同时,在音频处理任务中展现出卓越性能,且是首个完全基于状态空间模型(不依赖LSTM/CNN/注意力机制)却达到竞争力的ASR性能的模型。
MILS是由Meta AI开发的创新框架,通过结合大型语言模型(LLM)的推理能力和现有多模态模型,实现零样本多模态学习。它无需额外训练即可处理图像、视频和音频数据,在描述任务中达到最先进水平,并支持媒体生成和跨模态运算。
Music LLM 是一个基于 PyTorch 的音乐生成和文本转语音(TTS)整合系统,使用以 LLaMA 为基础的大型语言模型(LLM)。其音乐生成部分可在单张 RTX 4090 GPU 上高效训练,耗时不到 10 小时,适合资源有限的研究环境。项目可能整合了现有开源项目如 ChatMusician(音乐生成)和 Llasa-8B(TTS),但具体整合方式尚不明确。
BrowserAI 是一个开源项目,允许用户在浏览器中直接运行本地 AI 模型,无需服务器支持,从而实现快速推理并保护隐私。该项目特别适合需要隐私保护和低成本解决方案的用户,支持现代浏览器如 Chrome 113+ 或 Edge 113+。BrowserAI 提供了多种功能,如文本生成、语音识别、文本转语音等,并且支持 WebGPU 加速和离线使用,确保高性能和便捷性。
F5_TTS_Faster 是一个专为加速 F5-TTS 推理设计的工具,通过使用 ONNX 和 Tensorrt-LLM 技术,将推理时间从 3.2 秒减少到 0.72 秒,支持 NVIDIA Geforce RTX 3090。该项目提供了详细的安装和使用指南,支持 Windows 操作系统,兼容 Intel/AMD/Nvidia GPU,并提供了多种设备选项和优化技术,如 OpenVINO 和 TensorRT,以提升性能。此外,项目还提供了简单的 GUI 版本,方便用户操作。
MNN LLM App 是一个专为 Android 设备设计的多模态大语言模型应用,支持文本、图像、音频等多种任务。它基于阿里巴巴的 MNN 框架,优化了 CPU 推理,预填充速度比 llama.cpp 快 8.6 倍,解码速度快 2.3 倍,兼容多种主流模型如 Qwen、Gemma 和 Llama。该应用在设备本地运行,确保用户隐私,无需上传数据,特别适合需要离线处理的场景。
PengChengStarling是一个基于icefall项目的多语言自动语音识别(ASR)模型,支持8种语言,模型大小仅为Whisper-Large v3的20%,推理速度提升7倍,并提供完整的ASR流程支持。该项目适合实时转录和语音到文本应用,具有高效、快速和低资源需求的特点。
GigaMIDI Dataset 是音乐生成领域的一个大型数据集,包含约143万MID文件,提供了详细的元数据和预训练模型,并引入了新的循环检测和音乐表现力评估指标。该数据集旨在支持音乐生成、分析和性能评估的研究,特别适用于机器学习模型的训练和符号音乐处理的深入研究。
通义听悟是由阿里云推出的一款专注于将音频和视频内容实时转录为文字的AI助手。它支持多种语言,提供翻译、总结、定位等功能,帮助用户高效记录和阅读音频视频内容。该工具适用于工作场景(如会议记录)和学习场景(如讲座转录),并通过APP、微信小程序和网站提供多平台支持。
biji.com 是一个专注于语言和视频处理的平台,提供地方方言识别和短视频链接识别服务,并通过微信小程序增强用户体验。该项目旨在解决中国用户在多语言环境和视频内容处理方面的需求,适合跨方言沟通和短视频内容分析。
Hallo 是一个由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队共同开发的音频驱动肖像图像动画模型。它通过音频输入生成逼真的动画肖像,特别适用于需要动态面部表情和唇形同步的场景。该模型的核心技术包括 ReferenceNet、Face Encoder、Audio Encoder、UNet Denoiser 和 Temporal Alignment,能够生成高质量、逼真的动画形象。
Mirasol3B 是由 Google 开发的多模态自回归模型,能够处理视频、音频和文本三种数据类型。它由视频-音频自回归模型、文本自回归模型和多模态融合模型三部分组成,能够处理时间对齐的模态(如视频和音频)以及非时间对齐的模态(如文本)。研究表明,Mirasol3B 在多模态任务中表现出色,例如视频-文本检索、音频-文本检索和视频-音频检索等。该模型是闭源的,详细信息仅通过 Google 博客文章和研究论文获取。
Translatotron 3 是由 Google 研究团队开发的直接语音到语音翻译系统,通过自监督和对抗学习从未标记的语音和文本数据中学习,无需成对数据。系统结合了掩码自编码器、无监督嵌入映射和反向翻译三种技术,实现了无监督语音到语音翻译。其在某些公共数据集上的表现优于基线级联系统,并能保留非语言信息如停顿、语速和说话者身份,展示了无监督翻译的巨大潜力。
NVIDIA Broadcast App 是一款由 NVIDIA 开发的应用程序,通过 AI 技术提升直播和远程会议的音视频质量。它集成了多种 AI 功能,如麦克风降噪、房间回声消除、虚拟背景等,无需昂贵设备即可实现高质量效果。该应用特别适合需要专业音视频效果的用户,支持 Windows 11 64 位系统,并兼容多种流行通信和直播软件。
HaiLuo Voice AI 是由 MiniMax 开发的语音 AI 产品,采用 T2A-01-HD 模型,支持 17 种语言和超过 300 种音色。该产品能够生成最多 10,000 字的语音,质量经过严格测试,适用于各种复杂场景。用户可以自定义语音参数,如情感、语速、音高和音色效果。此外,它还支持语音克隆,只需 10 秒音频即可捕捉语音的细微差别和情感底色,适合电影配音、有声书制作和高端虚拟助手的专业应用。
MaaS Platform 是一种新型人工智能服务平台,旨在通过 API、SaaS 或其他形式将预训练和优化的 AI 模型部署到企业端,并提供给最终用户或公司使用。平台集成了多种开源大模型,如 Llama、Baichuan、Yi、Qwen、AIGC 等,支持从模型选择到部署的全流程开发,涵盖文本、图像、音视频等多模态模型,并提供私有化部署以确保数据安全。
Spirit LM是由Meta开源的多模式语言模型,能够混合语音和文本生成更逼真、拟人化的语音效果。该模型基于大语言模型,通过词级交错方法扩展到语音模式,使用子词BPE标记进行文本编码,并采用HuBERT模型作为语音编码器。模型在训练过程中连接语音和文本序列为单一标记集,利用自动策划的语音-文本平行语料库,同时学习语音和文本特征。模型还使用特殊标记区分文本和语音,并在训练中随机触发模态变化,使得语音和文本标记在模态变化边界处交错。Spirit LM有两个版本:基础版和表现力版,分别专注于语音语义单元和表达性语音合成。
Suno Music Generator 是一个基于 NextJS 开发的非官方 suno.ai 音乐生成网站。用户可以通过输入 prompt 在一分钟左右生成想要的歌曲。项目通过 JavaScript 逆向工程解析 suno.ai 的 API,并使用 Lemon Squeezy 进行支付。内置了 token 更新和保活功能,确保 token 不会过期。项目支持一键部署,用户可以通过获取 suno.ai 的 cookie 并设置环境变量来快速启动本地开发。
SpeechGPT是一个多模态大语言模型,具备跨模态对话能力,能够感知和生成语音与文本内容。它通过将连续的语音信号离散化,实现了语音与文本模态的统一处理。该项目还包括SpeechGPT-Gen,专注于链式信息语音生成。团队还开发了SpeechTokenizer等工具,进一步推动了语音语言模型的发展。
Oliva 是一款开源语音 RAG 助手,能够通过自然语音实现对 Qdrant 向量数据库的实时搜索。它由 Deluxer 团队开发,集成了 Deepgram(语音转文本)和 LiveKit(实时语音通信),支持多智能体协作和语义搜索。Oliva 适用于知识库搜索、智能客服、语音驱动 AI 应用等场景,旨在提升 AI 交互的自然性和效率。
GPT-4o是OpenAI开发的多模态AI模型,集成了文本、图像和音频处理能力。它通过高精度语音转文本和可控的文本转语音技术,帮助开发者解决嘈杂环境下语音识别不准及语音输出缺乏个性化的问题,为构建智能语音代理和高效转录场景提供核心支持。该模型支持多种API调用,包括聊天完成API、助手API和批处理API,适合多种应用场景。
OpenAI.fm 是由 OpenAI 开发的交互式平台,专注于文本转语音功能,适合开发者和用户快速测试和体验。平台支持中文,生成速度快,用户可选择音色和气氛,生成自然语音。提供多种语音风格和多语言支持,生成后自动删除文本和音频,确保用户隐私。开发者可通过 API 将功能集成到自己的应用中。
BGM猫是由北京灵动音科技有限公司开发的一款AI音乐生成工具,专注于为用户提供便捷的背景音乐创作体验。用户可以通过选择音乐时长(30秒到5分钟)和标签(如场景、风格、心情)来生成适合视频或片头的音乐。该工具特别适合需要定制音乐的内容创作者,如视频编辑者或社交媒体用户。
TME Studio 是由腾讯音乐娱乐公司(TME)推出的在线AI音乐创作工具,旨在简化音乐创作过程,特别适合音乐爱好者和不熟悉乐理的用户。它集成了多种AI功能,帮助用户更轻松地进行音乐编辑和分享。该工具由TME旗下多个实验室和团队共同打造,包括银河音效、MUSE、天琴实验室和Tencent AI Lab,特别适合不懂乐理的用户,降低了音乐创作的技术门槛。
音疯是由昆仑万维开发的AI音乐创作平台,旨在通过人工智能技术降低音乐创作门槛,为用户提供便捷、高效的音乐创作工具。用户可以通过输入歌词一键生成原创歌曲,或基于参考音乐生成风格相似的作品。平台支持多种音乐风格,如流行、说唱和R&B,适合初学者、独立音乐人及内容创作者。此外,音疯还提供作品上架出售的功能,帮助创作者获得持续收益。