AI音频工具 | 第 34 页 | AI-magic

AI音频工具

RealtimeTTS开源项目 – 实时文本到语音转换库

RealtimeTTS开源项目 – 实时文本到语音转换库

一个实时文本到语音转换库，通过识别句子片段来实现即时的听觉反馈，适用于需要即时音频响应的应用程序。

交互式娱乐应用实时文本到语音转换客户服务自动化智能语音助手

PDF2Audio开源项目 – 灵活定制的音频生成工具

PDF2Audio开源项目 – 灵活定制的音频生成工具

PDF2Audio是一个开源项目，旨在为用户提供一种从PDF文件生成音频内容的灵活解决方案，支持多种类型的音频内容生成，如播客、讲座、讨论以及短/长篇摘要，适用于教育、娱乐和信息传播场景。

PDF转音频工具开源音频生成项目播客制作工具教育音频内容生成

Data-Speech开源项目 – 语音数据集标注实用工具

Data-Speech开源项目 – 语音数据集标注实用工具

用于标注语音数据集的实用脚本套件，旨在为基于语音的人工智能模型（如文本到语音引擎）开发过程中所需要的音频变换（或注释）提供简洁、干净的代码库

AI模型训练文本到语音引擎开发语音数据集标注工具

GoMaxAI-ChatGPT-Midjourney-Pro开源项目 – 集成多种AI服务的高效平台

GoMaxAI-ChatGPT-Midjourney-Pro开源项目 – 集成多种AI服务的高效平台

基于Node.js、Vue3、uniapp的AIGC平台，集成ChatGPT、Midjourney绘画、Suno音乐、视频服务等，支持私有化部署，适用于个人、团队和企业。该平台为用户提供了一站式的AI解决方案，能够满足不同用户的需求，包括创意写作、艺术创作和内容生成等。

AI集成平台企业服务内容生成创意写作

kokoroTTS官网 – 一个强大的文字生成语音模型

kokoroTTS是一个文字生成语音模型，现已推出WASM版本，可以直接在浏览器中运行，支持高质量的语音生成，适配多种硬件，快速生成语音，方便用户在各种场景下使用。

在线教育工具文字生成语音模型浏览器语音合成高质量语音生成

Open-Lyrics开源项目 – 音频转录与翻译工具

Open-Lyrics开源项目 – 音频转录与翻译工具

Open-Lyrics是一个可以将音频转录为文本并翻译为LRC格式文件的工具，使用先进的whisper和gpt技术，支持多种语言，方便用户生成音乐字幕。

LRC字幕生成音频翻译工具音频转录工具

Kokoros开源项目 – 超快文本转语音引擎

Kokoros开源项目 – 超快文本转语音引擎

用Rust语言实现的超快文本转语音（TTS）引擎，只需一个命令就能合成高质量语音，支持多种语言，让语音合成变得简单快捷

Rust语言命令行TTS引擎超快文本转语音高质量语音合成

GTSinger开源项目 – 全球多技术歌唱语料库

GTSinger开源项目 – 全球多技术歌唱语料库

GTSinger是一个全球性多技术歌唱语料库，提供真实的乐谱，适用于各种歌唱任务。

AI系统歌唱质量评估全球多技术歌唱语料库歌唱合成研究歌声转换模型

Unsupervised-TTS开源项目 – 简单有效的无监督语音合成

Unsupervised-TTS开源项目 – 简单有效的无监督语音合成

Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统，旨在利用无监督学习算法提高语音合成的质量和效率，同时支持多种语言，便于与现有系统集成。

多语言支持无监督语音合成自定义数据集语音合成系统

whisper-cli-rs开源项目 – 基于Rust的语音识别命令行工具

whisper-cli-rs开源项目 – 基于Rust的语音识别命令行工具

whisper-cli-rs是一个使用Rust编写的命令行工具，基于whisper.cpp，支持多种音频格式，实现实时语音转文本，并允许用户自定义模型选择。

Rust命令行工具实时语音转文本自定义模型选择语音识别工具

NExT-GPT开源项目 – 任意多模态大语言模型

NExT-GPT开源项目 – 任意多模态大语言模型

NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型，具有灵活的处理能力，可广泛应用于文本、语音、图像和视频等多种场景。

图像描述生成多模态大语言模型文本转语音视频信息提取

StableTTS开源项目 – 轻量级的汉语与英语语音生成模型

StableTTS开源项目 – 轻量级的汉语与英语语音生成模型

StableTTS是一个轻量级的文本到语音（TTS）模型，专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数，适合在资源有限的环境中使用。它基于流匹配和DiT技术，是下一代TTS模型，灵感来源于Stable Diffusion 3，能够高效地产生自然流畅的语音。

TTS模型实时语音合成汉语与英语语音合成语音助手

Groqnotes开源项目 – 音频转结构化笔记工具

Groqnotes开源项目 – 音频转结构化笔记工具

Groqnotes 是一个结合 Groq 的 Whisper API 和 Llama3 模型的工具，能够从音频文件生成结构化笔记。它利用 Whisper-large 进行音频转录，并通过 Llama3 生成笔记结构和内容，支持 Markdown 样式，能够创建包含表格和代码的笔记。此外，它还能智能切换 Llama3-8b 和 Llama3-70b 模型，以平衡生成速度和质量。生成的笔记可以导出为文本或 PDF 文件，优化学习和复习过程。

学习笔记整理提高复习效率音频生成结构化笔记工具

music-to-image官网 – 根据音乐生成视觉图像

该项目能够根据上传的音乐文件生成对应的视觉图像，适用于视频制作和艺术创作，能够将音乐与视觉艺术结合，为创意项目提供灵感。

多媒体艺术作品根据音乐生成视觉图像艺术创作视频制作

PodCastLM开源项目 – 将PDF内容转换为音频播客

PodCastLM开源项目 – 将PDF内容转换为音频播客

一个将PDF内容转换成自然对话形式的音频播客工具，支持输出为MP3文件，让你的知识和信息以声音的形式传播

MP3文件输出PDF内容转换为音频播客知识传播工具自然对话音频生成

RealtimeSTT开源项目 – 强大高效的语音转文本工具

RealtimeSTT开源项目 – 强大高效的语音转文本工具

一个强大高效、低延迟的语音转文本工具，支持状态监测和唤醒词触发。

GPU加速低延迟语音识别唤醒词触发实时语音转文本工具

Diarizers开源项目 – 用于微调说话人辨识模型的库

Diarizers开源项目 – 用于微调说话人辨识模型的库

Diarizers是一个用于微调pyannote说话人辨识模型的库，利用Hugging Face生态系统，提供了便捷的模型训练和评估功能。

Hugging Face生态系统Pyannote库微调说话人辨识模型模型训练与评估

minimal-musicgen-for-developers开源项目 – 极简音乐生成模型，易于上手

minimal-musicgen-for-developers开源项目 – 极简音乐生成模型，易于上手

为开发者提供的极简版音乐生成模型，简化了Meta的MusicGen模型代码，让开发者更容易上手和修改，实现高质量音乐创作。

PyTorch音乐生成开发者工具极简音乐生成模型高质量音乐创作

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

Genshin Datasets For SVC/SVS/TTS开源项目 – 面向语音合成与转换的《原神》数据集

该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据，支持多种语音风格和角色，包含详细的音频标注和文本转录，适合语音合成、转换及相关研究。

Genshin语音数据集个性化语音助手语音合成语音转换

Useful Transformers开源项目 – 高效的Transformer推理库

Useful Transformers开源项目 – 高效的Transformer推理库

这是一个专为边缘设备设计的Transformer模型推理库，旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录，相较于最知名的实现速度快2倍，非常适合在资源受限的环境中使用。

Transformer模型低能耗处理语音转录边缘设备推理库

LivePortrait官网 – 一键让图片唱歌说话

一个一键整合包，上传一段视频即可让图片唱歌说话，甚至可以驱动动物表情！

动物表情驱动图片唱歌工具视频上传工具

Whisper Turbo开源项目 – 跨平台GPU加速的语音识别工具

Whisper Turbo开源项目 – 跨平台GPU加速的语音识别工具

Whisper Turbo是一个跨平台的GPU加速版Whisper，能够在客户端浏览器或Electron应用里运行，提供高效的语音识别功能，便于开发者集成，支持多种音频格式的识别和实时语音处理。

Electron应用集成GPU加速语音识别实时语音处理浏览器语音转文本

ebook2audiobookXTTS开源项目 – 电子书转有声书工具

ebook2audiobookXTTS开源项目 – 电子书转有声书工具

ebook2audiobookXTTS是一款功能强大的电子书转有声书工具，能够自动分章节并保留电子书的元数据，支持多种语言的转换和声音克隆功能，为用户提供灵活便捷的有声书制作体验。

声音克隆功能多语言支持电子书转有声书工具自动分章节

openai-realtime-streamlit开源项目 – 智能对话助手，实现实时交互

openai-realtime-streamlit开源项目 – 智能对话助手，实现实时交互

将OpenAI的实时对话控制台移植到Streamlit，提供更直观的交互体验，支持音频流的发送和播放，旨在提升用户的对话体验和互动性。

OpenAI集成Streamlit应用实时对话助手音频流交互

Wenet STT Python开源项目 – 基于WeNet的Python语音识别库

Wenet STT Python开源项目 – 基于WeNet的Python语音识别库

Wenet STT Python是一个基于WeNet的语音识别库，旨在提供高效、准确的语音转文本功能。它支持多种语言，能够实时处理语音输入，并允许用户自定义模型以满足特定需求，易于与现有Python项目集成。

Python语音转文本实时语音识别自定义模型语音识别库

WhisperPlus开源项目 – 提升语音转文本处理

WhisperPlus开源项目 – 提升语音转文本处理

WhisperPlus 是一款先进的语音转文本处理工具，致力于提供高准确率的语音识别，支持多种语言，并具备实时转录功能。它能够处理不同音质的音频，并提供用户友好的API接口，方便开发者进行集成和使用。

API接口多语言支持实时语音转录自定义模型训练

ChatTTSPlus开源项目 – 聊天文本转语音工具

ChatTTSPlus开源项目 – 聊天文本转语音工具

聊天文本转语音工具，让语音合成更快速、支持声音克隆和移动部署，提升语音交互体验

声音克隆移动部署聊天文本转语音工具语音交互体验

GLM-4-Voice开源项目 – 智能中英语音对话模型

GLM-4-Voice开源项目 – 智能中英语音对话模型

GLM-4-Voice 是由智谱 AI 开发的端到端中英语音对话模型，能够实时理解和生成中英文语音，并具备修改语音情感、语调、语速和方言等属性的功能。该模型支持情感共鸣、打断功能、多语言多方言，适用于灵活对话互动。

中英文语音理解与生成实时对话教育培训语音互动智能语音对话系统

RIFT-SVC开源项目 – 歌声转换模型，个性化音乐创作

RIFT-SVC开源项目 – 歌声转换模型，个性化音乐创作

RIFT-SVC是一款基于Rectified Flow Transformer的歌声转换模型，能够将一个歌手的歌声转换成另一个歌手的风格，让音乐创作和演绎更加多样化和个性化。该模型采用先进的技术，确保高质量的转换效果，并支持多种歌手风格的实现，便于用户集成和使用。

个性化音乐创作歌声转换模型音乐风格转换高质量音频转换

Insanely Fast Whisper (CLI)开源项目 – 超快音频转文字命令行工具

Insanely Fast Whisper (CLI)开源项目 – 超快音频转文字命令行工具

基于Whisper语音识别模型的超快音频转文字命令行工具，用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度，支持多种音频格式，并具有高准确率的语音识别，适合批量处理大型音频文件。

Whisper语音识别命令行工具批量音频处理超快音频转文字工具

1 … 32 33 34 35 36 … 72

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3