音频处理

Sonic Visualiser开源项目 – 音乐音频可视化与分析工具

Sonic Visualiser开源项目 – 音乐音频可视化与分析工具

Sonic Visualiser 是一款跨平台的桌面应用程序，专注于音乐音频的可视化、分析与注释。它支持多种音频格式，提供波形图、频谱图等多种视图，并具备丰富的音频处理功能，适用于教学、研究和音频编辑等多种场景。

跨平台应用音乐音频可视化音频分析工具音频处理

Ai Repeater官网 – 智能语言学习工具

Ai Repeater 是一款语言学习工具，允许用户从本地存储或 YouTube 中分割和合并音频/视频文件，以进行有效的语言练习。它提供智能重复、发音比较和内置语音词典等功能，以增强学习效果。

发音比较智能重复视频处理语言学习工具

FlowSep开源项目 – 基于语言查询的智能音频分离

FlowSep开源项目 – 基于语言查询的智能音频分离

FlowSep是一个基于语言查询的声音分离模型，通过语言描述分离音频中的特定声音，使音频处理变得更加智能。该项目利用Rectified Flow Matching技术，实现从噪声到目标声音的高效生成，并在多个基准测试中超越现有最佳模型。FlowSep提供简单易用的推理代码，支持自定义音频和文本查询，适用于多种音频处理场景。

Rectified Flow Matching技术基于语言查询的音频分离模型深度学习项目音频处理

AnyModal开源项目 – 灵活多模态语言模型框架

AnyModal开源项目 – 灵活多模态语言模型框架

AnyModal是一个基于PyTorch的灵活多模态语言模型框架，支持轻松集成图像、音频等多种输入模态。它提供了模块化的架构设计，便于添加新的输入模态处理器和分词器，并拥有丰富的预训练模型库。AnyModal框架将多种输入模态直接融入大语言模型，适用于多模态数据的复杂任务。

PyTorch图像处理多模态语言模型框架模块化架构

whisper-podcast-subtitles开源项目 – 为播客生成字幕的工具

whisper-podcast-subtitles开源项目 – 为播客生成字幕的工具

一个用于为PodCast生成字幕的项目，通过解析音频地址和使用Whisper模型生成字幕。该项目支持MP3和M4A格式音频，并能够自动下载音频。用户可以在Google Colab中执行相关步骤，包含完整的字幕生成解决方案及示例代码，便于开发者使用Whisper和Pyannote进行音频内容的处理。

Google ColabWhisper模型播客字幕生成工具音频处理

Easy Voice Toolkit开源项目 – 本地AI语音工具箱

Easy Voice Toolkit开源项目 – 本地AI语音工具箱

可本地部署的AI语音工具箱，提供语音识别、语音转写、语音转换等功能，支持音频处理、数据集创建和模型训练，适用于音频文件到理想语音模型的转换。

数据集创建本地AI语音工具箱模型训练语音识别

GPT-4o click to start-提供与GPT官网 – 4相媲美的智能服务

GPT-4o click to start是一个免费的GPT-4O驱动产品，提供与GPT-4相同水平的智能，配备强大的语音服务API，能够进行实时文本、视觉和音频处理。

实时文本处理聊天机器人集成视觉处理语音服务API

Music.AI官网 – 音频驱动的AI产品与服务平台

Music.AI允许公司和开发者构建和扩展音频驱动的AI产品和服务，提供定制化解决方案，支持多种用例。

声音设计语音识别音频制作音频处理

Samplab官网 – 先进的音乐采样工具

Samplab是一个革命性的工具，利用先进的AI技术和AIDetect，能够前所未有地操控样本，使其在节拍和调性上无缝匹配。它为音乐制作人和作曲家提供了轻松创造创新和独特音效的可能性。

AI音乐采样工具MIDI文件生成声音设计音乐制作

爱丽丝在可微仙境的冒险-神经网络入门书籍，以爱丽丝探险为比喻

以爱丽丝漫游“可微分”仙境为比喻，向读者介绍神经网络领域的入门书，涵盖自动微分优化函数、序列、图、文本和音频处理的设计技术。

JAXPyTorch卷积块图处理

Nendo core开源项目 – 为开发者提供的AI音频工具套件

Nendo core开源项目 – 为开发者提供的AI音频工具套件

Nendo core是为开发人员设计的AI音频工具套件，提供了一个易于使用的、轻量的框架，集成了音频处理和库管理的基本要素，拥有可扩展的插件架构和不断增长的AI音频插件生态系统，涵盖了广泛的用例。

AI音频工具套件插件管理自定义音频工具音频处理

Cat9开源项目 – 一个便捷的LASH用户外壳

Cat9开源项目 – 一个便捷的LASH用户外壳

Cat9是一个为LASH设计的用户外壳，旨在提供简单的交互体验，允许用户通过自定义界面和各种命令来进行音频处理和脚本编写。它能够与外部工具和插件集成，极大地扩展了其功能性。

LASH用户外壳脚本编写自定义界面音频处理

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

该课程提供了基于Transformer架构的音频处理技术，包含丰富的音频数据集和预训练模型，支持多种音频任务如分类、生成和转录，并结合实用示例和代码演示，帮助学习者掌握音频处理的最新技术。

Transformer架构数据集音频分类音频处理

Label Studio官网 – 灵活的数据标注工具

Label Studio是一个开源数据标注工具，旨在为计算机视觉、自然语言处理、语音、音频和视频模型准备训练数据。它支持多种数据类型的标注，适用于多个项目和用户。

开源项目数据标注工具自然语言处理视频处理

Afri Studio官网 – AI驱动的媒体创作工作室

Afri Studio 是一个利用先进人工智能进行媒体创作的工作室，能够快速生成高质量的文本、图像、音频等内容，适合博主、营销人员和艺术家等各类用户。

AI驱动的媒体创作博客文章创作图像处理文本生成

so-vits-svc开源项目 – 深度学习声音转换工具

so-vits-svc开源项目 – 深度学习声音转换工具

so-vits-svc是一个基于深度学习的语音转换项目，能够将一个人的声音转换为另一个人的声音，适用于多种应用场景。它通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入，实现高质量的歌声转换和语音合成。

AI翻唱开源项目歌声转换模型音色转换

Vocal Remover官网 – 高效音轨人声分离工具

Vocal Remover是一个前沿的AI工具，旨在简化音频轨道的人声隔离过程，方便音乐制作人、DJ和卡拉OK爱好者创建伴奏或无伴奏版本。

AI音轨人声分离工具DJ混音卡拉OK伴奏音乐制作

UVR5-UI开源项目 – 强大的人声伴奏分离 AI 工具

UVR5-UI开源项目 – 强大的人声伴奏分离 AI 工具

UVR5-UI 是一款功能强大的人声伴奏分离 AI 工具，提供在线简洁易用的操作界面，支持选择不同的 AI 模型以及输出格式和质量，并且能够进行批量处理，旨在满足用户的多样化需求。

AI音频工具人声伴奏分离工具在线音频处理批量处理音频

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3