AI音频工具 | 第 31 页 | AI-magic

AI音频工具

MusicGen Trainer开源项目 – 简化MusicGen模型训练

MusicGen Trainer开源项目 – 简化MusicGen模型训练

MusicGen模型训练器，旨在简化MusicGen和Audiocraft模型的训练过程，提供用户友好的界面和强大的功能，帮助用户轻松进行音频模型的训练和评估。

MusicGen模型训练器数据增强模型评估工具音频模型训练

KaraFan开源项目 – 为卡拉OK爱好者提供优质的演唱体验

KaraFan开源项目 – 为卡拉OK爱好者提供优质的演唱体验

KaraFan利用人工智能的最佳音乐分离模型，能够高效地将歌曲中的人声分离出来，为卡拉OK爱好者提供更好的歌曲演唱体验，支持多种音乐格式，基于先进的人工智能技术。

AI音乐分离工具人声分离技术卡拉OK演唱体验

CosyVoice-api开源项目 – 简化声音合成的接口项目

CosyVoice-api开源项目 – 简化声音合成的接口项目

一个让声音合成变得简单的接口项目，能帮用户轻松地将文字转换成各种语言和音色的语音，无论是常见的男女声还是特定语言的音色，都能轻松搞定，大大方便了需要语音合成的场景

CosyVoice-api多语言语音合成文本转语音语音合成接口

Kokoro-FastAPI开源项目 – 基于Docker的文本到语音模型部署

Kokoro-FastAPI开源项目 – 基于Docker的文本到语音模型部署

Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目，专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速，提供自动分割和拼接功能，并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署，适用于需要高效、多语言支持的语音合成场景。

Docker部署FastAPINVIDIA GPU加速ONNX推理

Anim-400K开源项目 – 大规模视频配音数据集，支持英语和日语

Anim-400K开源项目 – 大规模视频配音数据集，支持英语和日语

Anim-400K是一个大规模的视频配音数据集，包含了英语和日语两种语言的音视频剪辑，由超过425,000个对齐的剪辑（763小时）组成，涵盖了190多种不同的作品，涉及数百个主题和流派，适用于各类自动化配音任务。

多语言配音应用大规模视频配音数据集自动化配音任务语音合成研究

chatgpt-conversation开源项目 – 与ChatGPT进行语音对话

chatgpt-conversation开源项目 – 与ChatGPT进行语音对话

通过语音与ChatGPT进行实时对话，让其用声音回应你，提供友好的交流体验。

多语言支持实时对话语音对话语音识别

Nendo core开源项目 – 为开发者提供的AI音频工具套件

Nendo core开源项目 – 为开发者提供的AI音频工具套件

Nendo core是为开发人员设计的AI音频工具套件，提供了一个易于使用的、轻量的框架，集成了音频处理和库管理的基本要素，拥有可扩展的插件架构和不断增长的AI音频插件生态系统，涵盖了广泛的用例。

AI音频工具套件插件管理自定义音频工具音频处理

AsrTools开源项目 – 智能语音转文字工具

AsrTools开源项目 – 智能语音转文字工具

AsrTools 是一款智能语音转文字工具，集成了剪映、快手、必剪的官方接口，支持高效的批量处理，提供用户友好的界面，无需 GPU，可以免费使用大厂的 ASR 服务，支持 SRT 和 TXT 格式的输出。

SRT和TXT格式输出免费ASR服务批量处理音频智能语音转文字工具

Hertz-dev开源项目 – 开源全双工会话音频生成模型

Hertz-dev开源项目 – 开源全双工会话音频生成模型

Hertz-dev是一个开源的基础模型，专门用于全双工生成会话性音频，使设备能够理解和参与对话，适用于各种设备，具有良好的扩展性和灵活性。

全双工音频生成实时对话系统开源会话音频模型智能助手集成

XTTS开源项目 – 高质量的开源语音合成

XTTS开源项目 – 高质量的开源语音合成

XTTS 是一个开源文本到语音（TTS）项目，旨在提供高质量的语音合成，支持多种语言，适用于不同的应用场景，如语音助手和有声书制作。

开源文本到语音项目有声书制作语音助手高质量语音合成

Fast-Powerful-Whisper-AI-Services-API开源项目 – 强大的异步语音识别服务

Fast-Powerful-Whisper-AI-Services-API开源项目 – 强大的异步语音识别服务

旨在构建一个强大、高性能的异步 Whisper 服务 API，支持高扩展性和分布式处理需求，适用于大规模自动语音识别场景，并集成了多平台爬虫，如抖音和 TikTok。

Whisper API多平台媒体处理异步语音识别服务社交媒体数据抓取

WhisperS2T开源项目 – 优化的语音转文本管道

WhisperS2T开源项目 – 优化的语音转文本管道

WhisperS2T是一个为Whisper模型优化的语音转文本处理管道，支持多个推理引擎，旨在提供高准确率和灵活配置选项的语音识别解决方案。

Whisper模型实时语音识别批量处理音频语音转文本

Loopy开源项目 – 基于音频驱动的头像动画生成

Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目，仅通过音频生成生动的运动细节，支持多种视觉和音频风格，消除手动指定空间运动模板的需求，生成运动自适应的合成结果。

情绪驱动动画自然运动模式生成逼真歌唱表演动画音频驱动头像动画生成

MiniCPM-o-2_6官网 – 新型混合模型，具备多种功能

MiniCPM-o-2_6是Openbmb发布的一款新的混合模型，结合了多个先进模型，能够处理视觉、语音、视频流和OCR等多种任务，具有强大的功能和灵活的应用场景。

OCR功能多功能AI模型实时解析新型混合模型

Sound reconstruction from human brain activity via a generative model with brain-like auditory features-利用AI重建大脑活动对应的声音

通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音，为感知体验的神经表征提供了见解。

功能磁共振成像声音重建大脑活动解码深度神经网络

Voice Changer开源项目 – 实时变声软件

Voice Changer开源项目 – 实时变声软件

Voice Changer 是一款实时语音转换客户端，支持Windows和Mac。它可以实时变声成其他人或者虚拟角色的音色，可以接入多种语音转换技术。

实时变声软件游戏配音直播语音实验

Stable Audio开源项目 – 一款实现音乐和音效自由的AI工具

Stable Audio开源项目 – 一款实现音乐和音效自由的AI工具

Stable Audio是一款通过A100 GPU技术，能够在8秒内渲染最长95秒的44.1kHz立体声音频的AI工具。它支持生成多种风格的音乐和音效，适用于音乐创作、游戏音效等多个领域。

AI音乐生成工具AI音效创作工具快速音频渲染

OpenAI TTS官网 – 强大的文字转语音工具

OpenAI 新发布的 TTS 文字转语音，效果太棒了！支持多种语言的混合输入，提供多种声音选择，无需安装，在线免费使用。

在线语音合成多语言支持文字转语音工具

CoVoMix开源项目 – 人类般多说话者对话的零样本语音生成

CoVoMix开源项目 – 人类般多说话者对话的零样本语音生成

CoVoMix项目旨在推进人类般的多说话者对话的零样本语音生成技术，能够创建流畅的对话体验，支持多位说话者之间的自然交流。

多说话者对话虚拟环境对话代理零样本语音生成

HeyGen官网 – 视频翻译与口型对齐解决方案

HeyGen的视频翻译（中文配音）解决方案，通过上传视频实现口型完美对齐的配音翻译。

口型对齐声音克隆多语言视频内容视频翻译

Sketch2Sound官网 – 可控音频生成的声音合成模型

Sketch2Sound 是一种生成音频模型，通过时变信号和声音模仿实现音频生成，能够从一组可解释的时变控制信号创建高质量的声音。

可控音频生成声音合成模型声音艺术创作文本提示声音合成

echomimic_v2开源项目 – 升级版数字人生成工具

echomimic_v2开源项目 – 升级版数字人生成工具

echomimic_v2 是 echomimic 的升级版本，从数字脸升级到数字人，支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入，增强了交互体验，适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。

动作表现力半身人物动画游戏角色动画表情与肢体动作同步

gen-cv开源项目 – 文本转语音头像项目

gen-cv开源项目 – 文本转语音头像项目

微软的文本转语音头像项目，允许用户通过文本输入创建会说话的头像视频，构建实时交互式机器人。

TTS音频合成头像视频生成实时交互式机器人文本转语音

设计资源合集开源项目 – 一个专注于聊天和文本转语音资源的项目

设计资源合集开源项目 – 一个专注于聊天和文本转语音资源的项目

ChatTTS资源大全专注于提供多样化的聊天和文本转语音资源，支持多种语言和灵活的API接口，适合开发各种语音相关应用。

文本转语音资源聊天机器人开发语音支持应用

Qwen2-Audio-7B-Instruct官网 – 高效的AI音频处理模型

一个基于AI的音频处理模型，旨在提供高效的音频指令和处理能力。

AI音频处理模型实时音频处理用户友好的API音频指令生成

Local AI Voice Chat开源项目 – 本地AI语音对话助手

Local AI Voice Chat开源项目 – 本地AI语音对话助手

基于Zephyr 7B模型使用自定义语音进行本地AI对话，使用RealtimeSTT和faster_whisper进行转录，使用RealtimeTTS和Coqui XTTS进行语音合成，提供了一个实时的聊天机器人，可以进行语音交互。

Coqui XTTSRealtimeSTTRealtimeTTSZephyr 7B模型

mini_source_separation开源项目 – 简单易懂的音乐源分离工具

mini_source_separation开源项目 – 简单易懂的音乐源分离工具

音乐源分离的小型项目，用简单易懂的方式帮助人们将音乐中的不同声音部分（如人声、乐器声等）分离出来，对于音乐制作和音频处理爱好者来说很有帮助。该项目基于Pytorch实现，使用MUSDB18HQ数据集进行训练和验证，支持音乐中的人声与乐器声分离，适合音频处理初学者，容易上手。

Pytorch音频处理音乐源分离工具音频分析与处理

fish-speech.rs开源项目 – Rust编写的文本到语音转换工具

fish-speech.rs开源项目 – Rust编写的文本到语音转换工具

用Rust编写的文本到语音转换工具，能将文本转换为多种语言的语音，特色在于使用了先进的CUDA技术来提升处理速度

CUDA加速语音处理Rust编写的语音合成文本到语音转换工具语言学习辅助工具

Voice-Pro开源项目 – 多功能音频处理工具

Voice-Pro开源项目 – 多功能音频处理工具

基于 Gradio 的 WebUI，支持 Whisper、faster-Whisper、whisper-timestamped，具备 YouTube 下载器、声音分离器、转录、文本到语音（TTS）和翻译功能

WhisperYouTube下载器声音分离多功能音频处理工具

Podcastfy开源项目 – 开源播客音频转换工具

Podcastfy开源项目 – 开源播客音频转换工具

Podcastfy 是一个开源工具，可以将视频、PDF、论文、网站和文章等内容一键转换为对话式的播客音频，为用户提供便捷的音频制作体验。

一键转换播客音频在线体验开源播客音频转换工具支持多种输入格式

1 … 29 30 31 32 33 … 72

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3