一个实时文本到语音转换库,通过识别句子片段来实现即时的听觉反馈,适用于需要即时音频响应的应用程序。
PDF2Audio是一个开源项目,旨在为用户提供一种从PDF文件生成音频内容的灵活解决方案,支持多种类型的音频内容生成,如播客、讲座、讨论以及短/长篇摘要,适用于教育、娱乐和信息传播场景。
用于标注语音数据集的实用脚本套件,旨在为基于语音的人工智能模型(如文本到语音引擎)开发过程中所需要的音频变换(或注释)提供简洁、干净的代码库
基于Node.js、Vue3、uniapp的AIGC平台,集成ChatGPT、Midjourney绘画、Suno音乐、视频服务等,支持私有化部署,适用于个人、团队和企业。该平台为用户提供了一站式的AI解决方案,能够满足不同用户的需求,包括创意写作、艺术创作和内容生成等。
kokoroTTS是一个文字生成语音模型,现已推出WASM版本,可以直接在浏览器中运行,支持高质量的语音生成,适配多种硬件,快速生成语音,方便用户在各种场景下使用。
Open-Lyrics是一个可以将音频转录为文本并翻译为LRC格式文件的工具,使用先进的whisper和gpt技术,支持多种语言,方便用户生成音乐字幕。
用Rust语言实现的超快文本转语音(TTS)引擎,只需一个命令就能合成高质量语音,支持多种语言,让语音合成变得简单快捷
GTSinger是一个全球性多技术歌唱语料库,提供真实的乐谱,适用于各种歌唱任务。
Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
whisper-cli-rs是一个使用Rust编写的命令行工具,基于whisper.cpp,支持多种音频格式,实现实时语音转文本,并允许用户自定义模型选择。
NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
Groqnotes 是一个结合 Groq 的 Whisper API 和 Llama3 模型的工具,能够从音频文件生成结构化笔记。它利用 Whisper-large 进行音频转录,并通过 Llama3 生成笔记结构和内容,支持 Markdown 样式,能够创建包含表格和代码的笔记。此外,它还能智能切换 Llama3-8b 和 Llama3-70b 模型,以平衡生成速度和质量。生成的笔记可以导出为文本或 PDF 文件,优化学习和复习过程。
该项目能够根据上传的音乐文件生成对应的视觉图像,适用于视频制作和艺术创作,能够将音乐与视觉艺术结合,为创意项目提供灵感。
一个将PDF内容转换成自然对话形式的音频播客工具,支持输出为MP3文件,让你的知识和信息以声音的形式传播
一个强大高效、低延迟的语音转文本工具,支持状态监测和唤醒词触发。
Diarizers是一个用于微调pyannote说话人辨识模型的库,利用Hugging Face生态系统,提供了便捷的模型训练和评估功能。
为开发者提供的极简版音乐生成模型,简化了Meta的MusicGen模型代码,让开发者更容易上手和修改,实现高质量音乐创作。
该数据集为SVC/SVS/TTS任务提供高质量的《原神》角色语音数据,支持多种语音风格和角色,包含详细的音频标注和文本转录,适合语音合成、转换及相关研究。
这是一个专为边缘设备设计的Transformer模型推理库,旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录,相较于最知名的实现速度快2倍,非常适合在资源受限的环境中使用。
一个一键整合包,上传一段视频即可让图片唱歌说话,甚至可以驱动动物表情!
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
ebook2audiobookXTTS是一款功能强大的电子书转有声书工具,能够自动分章节并保留电子书的元数据,支持多种语言的转换和声音克隆功能,为用户提供灵活便捷的有声书制作体验。
将OpenAI的实时对话控制台移植到Streamlit,提供更直观的交互体验,支持音频流的发送和播放,旨在提升用户的对话体验和互动性。
Wenet STT Python是一个基于WeNet的语音识别库,旨在提供高效、准确的语音转文本功能。它支持多种语言,能够实时处理语音输入,并允许用户自定义模型以满足特定需求,易于与现有Python项目集成。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
聊天文本转语音工具,让语音合成更快速、支持声音克隆和移动部署,提升语音交互体验
GLM-4-Voice 是由智谱 AI 开发的端到端中英语音对话模型,能够实时理解和生成中英文语音,并具备修改语音情感、语调、语速和方言等属性的功能。该模型支持情感共鸣、打断功能、多语言多方言,适用于灵活对话互动。
RIFT-SVC是一款基于Rectified Flow Transformer的歌声转换模型,能够将一个歌手的歌声转换成另一个歌手的风格,让音乐创作和演绎更加多样化和个性化。该模型采用先进的技术,确保高质量的转换效果,并支持多种歌手风格的实现,便于用户集成和使用。
基于Whisper语音识别模型的超快音频转文字命令行工具,用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度,支持多种音频格式,并具有高准确率的语音识别,适合批量处理大型音频文件。