AI音频工具 | 第 36 页

Insanely-fast-whisper开源项目 – 超快速的语音识别工具

一个超快速的语音识别工具，基于OpenAI的Whisper Large v3模型，能把长达5小时的音频在不到2分钟内转写成文字。

0

Diart开源项目 – 实时识别说话人的音频处理工具

Diart是一个优化方案的代码实践，构建在pyannote-audio模型之上，旨在实时识别不同的说话人，特别适用于实时音频流（如来自麦克风）的场景。

0

人声转录声音重叠处理实时音频处理工具说话人识别

AigcPanel开源项目 – 一站式AI数字人系统

AigcPanel是一个简单易用的一站式AI数字人系统，支持视频合成、语音合成与克隆，以及本地模型的一键管理和启动。它能够自动适配口型，实现画面与声音的完美同步，并提供丰富的声音参数调节功能。AigcPanel还支持多语言界面切换，并集成了多种主流模型，如MuseTalk、CosyVoice等，扩展了其功能和应用场景。

0

AI数字人系统数字人视频制作智能语音工具模型管理

phidata-基于GPT开源项目 – 4o的大语言模型资源协调工具

phidata是一个基于GPT-4o实现的LLM OS项目，旨在通过大语言模型协调和优化资源，以解决各种问题。该项目不仅具备强大的文本处理能力，还能够进行图像、视频和音乐的生成与处理，并具备深度思考和自我完善的能力，适用于多个领域。

0

GPT-4oLLM资源协调工具内容生成多媒体内容生成

Youtube-Whisper开源项目 – 一款高效的YouTube视频转写工具

Youtube-Whisper是一个Gradio应用，通过音频提取和OpenAI的Whisper模型，能够高效转写YouTube视频内容，帮助用户快速生成字幕或记录视频信息。

0

OpenAI Whisper模型YouTube视频转写工具自动生成字幕视频内容记录

Real-Time-Voice-Cloning开源项目 – 快速生成与原声相似的音频

一个有趣的AI项目，可以通过短时间的音频源生成与原声音相似的音频，支持文本输入，基本可以做到以假乱真。

0

AI生成音频个性化语音助手语音合成语音识别

Midi Music Generator官网 – 音乐创作助手，快速生成MIDI音乐

Midi Music Generator是一款音乐创作助手，能够根据用户的指令生成MIDI格式的音乐，适合音乐爱好者和制作人使用，具有易于操作和快速生成音乐的特点。

0

MIDI音乐生成器快速生成音乐自定义音乐风格音乐创作助手

UnIVAL开源项目 – 统一图像、视频、音频和语言任务的模型

UnIVAL是一个统一模型，旨在处理图像、视频、音频和文本等多模态任务。它通过任务平衡和多模态课程学习进行有效预训练，展现出在图像和视频文本任务中的优越性能。该模型还支持通过多模态任务训练的权重插值，展示了不同任务之间的协同作用，从而提升整体性能。

0

任务协同作用图像视频文本生成模型权重插值统一多模态模型

Seed-TTS开源项目 – 生成与人类语音几乎无差别的合成语音

Seed-TTS能生成与我们说话几乎没有区别的语音，非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本，能根据不同的情感和语境生成相应的语音！

0

多语言支持情感语音生成自然语音生成语音合成

ChatTTS_colab开源项目 – 简单易用的语音合成工具

基于ChatTTS的语音合成工具，支持音色抽卡、长音频生成和分角色朗读，简单易用，无需复杂安装。

0

ChatTTS分角色朗读语音合成工具长音频生成

VideoChat开源项目 – 实时语音交互的数字人平台

VideoChat是一个实时语音交互的数字人平台，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。用户可以自定义数字人的形象和音色，支持音色克隆，实现个性化的交流体验。此外，该平台的首包延迟可以低至3秒，确保流畅的互动。

0

个性化交流在线客服实时语音交互教育培训

UVR5-UI开源项目 – 强大的人声伴奏分离 AI 工具

UVR5-UI 是一款功能强大的人声伴奏分离 AI 工具，提供在线简洁易用的操作界面，支持选择不同的 AI 模型以及输出格式和质量，并且能够进行批量处理，旨在满足用户的多样化需求。

0

AI音频工具人声伴奏分离工具在线音频处理批量处理音频

CyberWaifu开源项目 – 真实感聊天机器人，支持多种互动

CyberWaifu 是一个结合大型语言模型（LLM）与文本转语音（TTS）技术的聊天机器人，能够在 QQ 平台上与用户进行自然流畅的对话，支持表情包和QQ表情，并具备联网搜索功能，提供实时信息获取。

0

QQ平台聊天文本转语音真实感聊天机器人联网搜索功能

ClearerVoice-Studio开源项目 – 强大的语音处理与增强工具

ModelScope魔搭开源的ClearerVoice-Studio项目，提供语音增强、语音分离、目标说话人提取等功能，旨在提升语音处理的质量和效率。

0

模型微调目标说话人提取语音分离语音增强

GPT-SoVITS开源项目 – 中文语音克隆，1分钟可训练TTS模型

GPT-SoVITS 是一个适用于中文的语音克隆项目，能够通过短时间的语音数据训练出高质量的文本到语音（TTS）模型。仅需1分钟的语音数据即可进行有效的模型微调，支持多语言推理，并提供易于使用的Web界面，适合初学者创建和管理训练数据集。

0

Few-shot TTSTTS模型训练WebUI工具中文语音克隆

epub2tts开源项目 – 将文本转换为有声读物的工具

epub2tts是一个将epub或文本文件转换成有声读物的工具，利用TTS(文本到语音)技术，支持生成mp3或m4b格式的音频文件，集成了OpenAI TTS，能够通过API密钥计算费用，平均费用约为$7。

0

OpenAI TTS集成文本到语音转换工具有声读物生成器

ChatTTS_Speaker开源项目 – 音色评分与打标助手

ChatTTS音色评分与打标助手：基于ERes2NetV2模型的音色稳定性评估工具，提供2600个音色的性别、年龄和特征分类，支持在线试听与下载使用，适用于语音合成与音色选择

0

语音合成助手音色评分工具音频下载助手

GPT Assistant开源项目 – ChatGPT 安卓客户端

GPT Assistant 是一个功能强大的安卓客户端，支持用户通过语音、文字和图像与 ChatGPT 进行互动，提供便捷的聊天体验。

0

ChatGPT 安卓客户端图像聊天文字聊天语音聊天

God app开源项目 – 一个整合多种生成AI的应用

将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中，只需一个提示，即可完成所有需求

0

AI整合应用图像生成自然语言处理视频生成

sherpa-onnx开源项目 – 支持多种语音处理功能的框架

sherpa-onnx是一个功能强大的框架，支持语音转文字、文字转语音和说话人识别等多种功能。它设计为轻量级，能够在低功耗设备上高效运行，且遵循MIT协议，便于开发者使用和集成。

0

MIT协议文字转语音语音转文字说话人识别

whisper-cpp-python开源项目 – Python封装的whisper.cpp

whisper-cpp-python是whisper.cpp的Python绑定，提供高效的语音识别功能，支持多种音频格式，具有简单易用的API和多线程处理能力。

0

Python封装多线程处理语音识别音频转文本

ChatTTS开源项目 – 对话场景的文本转语音模型

ChatTTS是专门为对话场景设计的文本转语音模型，支持英文和中文两种语言，提供自然流畅的语音合成和多说话人的支持。

0

多说话人支持文本转语音模型细粒度控制自然流畅语音合成

Awesome-Audio-LLM开源项目 – 音频处理与生成的资源集合

音频领域的大型语言模型集合，专注于音频处理、理解和生成，为音频语言模型提供丰富的资源和工具

0

API音频分析社区驱动更新音频处理模型音频理解与生成

Neural Speech Synthesis开源项目 – 基于神经网络的语音合成技术

Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术，利用深度学习算法生成自然流畅的语音，支持多种风格和情感，适用于多种应用场景。

0

Python API集成深度学习语音生成神经网络语音合成语音合成工具

libsio开源项目 – 语音输入输出的运行时库

libsio是一个用于语音输入（STT）和输出（TTS）的运行时库，支持高效的语音识别和自然流畅的语音合成，具有良好的跨平台兼容性，易于集成到各种应用程序中。

0

无障碍技术聊天机器人集成语音合成库语音识别库

whisper-jax开源项目 – 高效的多语言语音转文字模型

一个快速且高效的语音转文字（STT）模型，支持多语言自动识别和翻译功能。

0

多语言自动识别实时语音服务语音翻译语音转文字模型

OuteTTS开源项目 – 实验性的文本到语音模型

OuteTTS是一个实验性的文本到语音模型，采用纯语言建模方法生成语音，致力于提升语音合成的自然性和可控性。

0

文本到语音模型用户自定义声音自然语言处理语音合成

SEPIA Speech-To-Text Server开源项目 – 开源语音识别服务器

SEPIA 服务器支持通过WebSocket连接进行开源语音识别，易于自定义与扩展，兼容多种语音识别引擎。

0

WebSocket语音识别实时语音识别开源语音识别服务器自定义语音识别模型

noScribe开源项目 – 自动语音转录与说话人识别工具

noScribe是一个结合了OpenAI Whisper和pyannote技术的语音转录及说话人识别界面，旨在提供高效、用户友好的音频处理体验，支持多种音频格式的输入，能够快速准确地转录语音并识别说话人。

0

OpenAI Whisperpyannote用户友好的音频处理工具自动语音转录

open-tts-tracker开源项目 – 开源TTS项目的收集与比较

open-tts-tracker是一个专注于收集和比较各类开源文本转语音（TTS）项目的平台，旨在为用户提供最新的TTS模型信息和性能比较，帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音，拥有用户友好的界面，并且持续更新项目列表，确保信息的时效性。

0

TTS模型比较开源TTS项目文本转语音工具用户友好的TTS平台