Vocal Remover是一个前沿的AI工具,旨在简化音频轨道的人声隔离过程,方便音乐制作人、DJ和卡拉OK爱好者创建伴奏或无伴奏版本。
UVR5-UI 是一款功能强大的人声伴奏分离 AI 工具,提供在线简洁易用的操作界面,支持选择不同的 AI 模型以及输出格式和质量,并且能够进行批量处理,旨在满足用户的多样化需求。
Audio Strip是一款先进的AI工具,专为音频文件交互而设计,能够精准地从音轨中分离人声,提供高质量的无伴奏版本和伴奏曲目,适合音乐制作人、DJ及任何音频编辑爱好者。
音乐源分离的小型项目,用简单易懂的方式帮助人们将音乐中的不同声音部分(如人声、乐器声等)分离出来,对于音乐制作和音频处理爱好者来说很有帮助。该项目基于Pytorch实现,使用MUSDB18HQ数据集进行训练和验证,支持音乐中的人声与乐器声分离,适合音频处理初学者,容易上手。
Splitter是一个瑞典研究公司,专注于开发基于AI的音频处理技术,服务于全球数百万用户。用户可以通过该平台上传音频文件,利用AI技术从音乐中分离乐器或人声。
基于Whisper语音识别模型的超快音频转文字命令行工具,用Whisper Large v2在10分钟内转录300分钟音频。该工具优化了转录速度,支持多种音频格式,并具有高准确率的语音识别,适合批量处理大型音频文件。
AsrTools 是一款智能语音转文字工具,集成了剪映、快手、必剪的官方接口,支持高效的批量处理,提供用户友好的界面,无需 GPU,可以免费使用大厂的 ASR 服务,支持 SRT 和 TXT 格式的输出。
一个超快速的语音识别工具,基于OpenAI的Whisper Large v3模型,能把长达5小时的音频在不到2分钟内转写成文字。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
WhisperS2T是一个为Whisper模型优化的语音转文本处理管道,支持多个推理引擎,旨在提供高准确率和灵活配置选项的语音识别解决方案。
Fish Audio Preprocessor 是一组用于音频处理的脚本,功能包括将视频/音频转换为wav格式、音频声音分离、自动音频切片、音频音量匹配、音频数据统计和音频重采样,旨在提升音频处理的效率和便捷性。
这是一款AI降噪工具,帮助人们使他们的声音更清晰。只需一键点击,人们就可以为他们的视频获得专业的音效。它还提供了专业的AI音频处理解决方案,允许用户本能地调整声音/噪音比例。
Mp3Converter AI利用先进的人工智能技术,确保从任何音频或视频格式转换为MP3时快速、准确且高质量。简化您的转换流程,轻松享受卓越的转换效果。
一个名为 insanely-fast-whisper 的新实现,使用 OpenAI's Whisper Large v3,适用于 Mac 或 Nvidia GPU,结合 Whisper + Pyannote 库加速音频转录和语音分段。
Topaz Labs是一家专注于AI驱动的照片和视频增强工具的前沿软件公司,通过先进的AI算法,将普通图像和视频转换为视觉杰作,适用于摄影师、摄像师和数字艺术家。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音,并支持API调用。
Ultraswap是互联网最强大的AI换脸工具,只需两次点击即可生成1080p分辨率、每秒60帧的换脸视频。支持批量上传和下载,可以同时处理多个文件。