MusicGen模型训练器,旨在简化MusicGen和Audiocraft模型的训练过程,提供用户友好的界面和强大的功能,帮助用户轻松进行音频模型的训练和评估。
KaraFan利用人工智能的最佳音乐分离模型,能够高效地将歌曲中的人声分离出来,为卡拉OK爱好者提供更好的歌曲演唱体验,支持多种音乐格式,基于先进的人工智能技术。
一个让声音合成变得简单的接口项目,能帮用户轻松地将文字转换成各种语言和音色的语音,无论是常见的男女声还是特定语言的音色,都能轻松搞定,大大方便了需要语音合成的场景
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
Anim-400K是一个大规模的视频配音数据集,包含了英语和日语两种语言的音视频剪辑,由超过425,000个对齐的剪辑(763小时)组成,涵盖了190多种不同的作品,涉及数百个主题和流派,适用于各类自动化配音任务。
通过语音与ChatGPT进行实时对话,让其用声音回应你,提供友好的交流体验。
Nendo core是为开发人员设计的AI音频工具套件,提供了一个易于使用的、轻量的框架,集成了音频处理和库管理的基本要素,拥有可扩展的插件架构和不断增长的AI音频插件生态系统,涵盖了广泛的用例。
AsrTools 是一款智能语音转文字工具,集成了剪映、快手、必剪的官方接口,支持高效的批量处理,提供用户友好的界面,无需 GPU,可以免费使用大厂的 ASR 服务,支持 SRT 和 TXT 格式的输出。
Hertz-dev是一个开源的基础模型,专门用于全双工生成会话性音频,使设备能够理解和参与对话,适用于各种设备,具有良好的扩展性和灵活性。
XTTS 是一个开源文本到语音(TTS)项目,旨在提供高质量的语音合成,支持多种语言,适用于不同的应用场景,如语音助手和有声书制作。
旨在构建一个强大、高性能的异步 Whisper 服务 API,支持高扩展性和分布式处理需求,适用于大规模自动语音识别场景,并集成了多平台爬虫,如抖音和 TikTok。
WhisperS2T是一个为Whisper模型优化的语音转文本处理管道,支持多个推理引擎,旨在提供高准确率和灵活配置选项的语音识别解决方案。
Loopy是一个能够利用长期运动依赖性生成自然运动模式的项目,仅通过音频生成生动的运动细节,支持多种视觉和音频风格,消除手动指定空间运动模板的需求,生成运动自适应的合成结果。
MiniCPM-o-2_6是Openbmb发布的一款新的混合模型,结合了多个先进模型,能够处理视觉、语音、视频流和OCR等多种任务,具有强大的功能和灵活的应用场景。
通过功能磁共振成像和生成人工智能模型重建人类大脑活动的声音,为感知体验的神经表征提供了见解。
Voice Changer 是一款实时语音转换客户端,支持Windows和Mac。它可以实时变声成其他人或者虚拟角色的音色,可以接入多种语音转换技术。
Stable Audio是一款通过A100 GPU技术,能够在8秒内渲染最长95秒的44.1kHz立体声音频的AI工具。它支持生成多种风格的音乐和音效,适用于音乐创作、游戏音效等多个领域。
OpenAI 新发布的 TTS 文字转语音,效果太棒了!支持多种语言的混合输入,提供多种声音选择,无需安装,在线免费使用。
CoVoMix项目旨在推进人类般的多说话者对话的零样本语音生成技术,能够创建流畅的对话体验,支持多位说话者之间的自然交流。
HeyGen的视频翻译(中文配音)解决方案,通过上传视频实现口型完美对齐的配音翻译。
Sketch2Sound 是一种生成音频模型,通过时变信号和声音模仿实现音频生成,能够从一组可解释的时变控制信号创建高质量的声音。
echomimic_v2 是 echomimic 的升级版本,从数字脸升级到数字人,支持通过输入图像、音频和手势生成高度逼真的数字人。该工具集成了音频处理和手势输入,增强了交互体验,适用于虚拟主播、虚拟助手、教育、娱乐等多种场景。
微软的文本转语音头像项目,允许用户通过文本输入创建会说话的头像视频,构建实时交互式机器人。
ChatTTS资源大全专注于提供多样化的聊天和文本转语音资源,支持多种语言和灵活的API接口,适合开发各种语音相关应用。
一个基于AI的音频处理模型,旨在提供高效的音频指令和处理能力。
基于Zephyr 7B模型使用自定义语音进行本地AI对话,使用RealtimeSTT和faster_whisper进行转录,使用RealtimeTTS和Coqui XTTS进行语音合成,提供了一个实时的聊天机器人,可以进行语音交互。
音乐源分离的小型项目,用简单易懂的方式帮助人们将音乐中的不同声音部分(如人声、乐器声等)分离出来,对于音乐制作和音频处理爱好者来说很有帮助。该项目基于Pytorch实现,使用MUSDB18HQ数据集进行训练和验证,支持音乐中的人声与乐器声分离,适合音频处理初学者,容易上手。
用Rust编写的文本到语音转换工具,能将文本转换为多种语言的语音,特色在于使用了先进的CUDA技术来提升处理速度
基于 Gradio 的 WebUI,支持 Whisper、faster-Whisper、whisper-timestamped,具备 YouTube 下载器、声音分离器、转录、文本到语音(TTS)和翻译功能
Podcastfy 是一个开源工具,可以将视频、PDF、论文、网站和文章等内容一键转换为对话式的播客音频,为用户提供便捷的音频制作体验。