AI音频工具 | 第 30 页

AudioCraft是一个开源工具，旨在满足生成音频的需求，包括音乐、音效和音频压缩。它利用先进的模型如MusicGen和AudioGen，以及EnCodec神经音频编解码器，将原始音频信号转换为高质量、可定制的音频输出，非常适合从文本输入创建独特的音景或增强现有音频文件。

0

播客创作文本到音频转换游戏音频定制生成音频工具

Gling AI官网 – AI驱动的YouTube视频编辑工具

Gling AI是一个专为YouTuber设计的AI视频编辑工具，利用人工智能和机器学习算法自动检测并删除录制视频和音频文件中的沉默和不佳片段。用户只需下载MacOS或Windows的桌面应用程序，上传原始视频或音频文件，Gling AI将自动转录内容并删除多余的沉默和不流畅的部分，最终可以导出为MP4、MP3或带有SRT格式字幕的文件。

0

AI视频编辑工具YouTuber工作效率提升自动转录视频音频质量优化

HiDock H1官网 – AI驱动的音频底座，记录通话与会议

HiDock H1是一款结合硬件和软件的音频底座，专为iPhone用户设计，能够实时记录通话和会议内容。它支持最长达4小时的录音，保证清晰无噪音的沟通，并提供高精度的文字转录。用户无需订阅服务，可以先使用后付款。

0

AI驱动音频底座实时语音标记通话与会议录音高精度文字转录

Audioatlas官网 – AI驱动的音乐搜索引擎

Audioatlas是一个革命性的音乐搜索引擎，利用先进的人工智能技术，拥有超过2亿首歌曲的全球数据库，致力于为用户寻找和许可完美音乐。

0

AI驱动音乐搜索引擎自然语言音乐搜索音乐库探索音乐许可管理

ChatChit AI官网 – 智能对话，轻松搞定WhatsApp

ChatChit AI是一个集智能对话、图像生成、语音转录、图像理解和媒体下载于一体的聊天助手，旨在提升WhatsApp的使用体验，帮助用户更高效地沟通和分享。

0

WhatsApp聊天助手图像生成工具媒体下载助手智能对话助手

Cleanvoice AI官网 – 智能音频处理工具，提升录音质量

Cleanvoice AI是一款利用人工智能技术，专门用于清除音频录音中的填充词、口腔声音和口吃的工具。它通过多语言支持、音频改善和时间线导出等功能，提高用户的录音质量，节省编辑时间和精力。用户只需上传音频文件，AI算法便能自动处理，用户可以下载或导出清理后的结果。

0

AI音频处理工具内容创作者多语言支持提升录音质量

Marevo官网 – 顶尖的AI写作工具

Marevo是一款领先的AI写作工具和文本生成器，用户只需几次点击即可创建营销文案、社交媒体帖子、广告文案、SEO博客、标题等，能够在60秒内获取所需文本，显著加快内容创作过程。

0

AI写作工具SEO博客撰写文本生成器社交媒体帖子生成

Landr官网 – 在线音乐创作与分发平台

Landr是一个在线音乐软件平台，为音乐人提供多种创意工具和资源。它集成了音乐母带处理、数字音乐发行、精选插件、免费音频样本包、协作工具和音乐推广等功能，帮助音乐人在一个平台上探索、创作、合作、母带处理、发行和推广他们的音乐。

0

AI驱动的音乐母带处理在线音乐创作平台音乐发行音乐合作工具

AI Commerce Content Platform by Akool官网 – 为小企业提供个性化产品描述的全能解决方案

Akool的AI Commerce Content Platform是一个为小企业和电商平台设计的全能解决方案，旨在创建个性化、专业质量的产品描述。该平台利用人工智能生成内容（AIGC），提供文本、图像、语音和视频格式的产品描述。用户只需在网站上注册账户，提供产品详情，并选择所需的描述格式，AI系统将生成引人入胜、准确且独特的内容，专门为用户的产品量身定制。

0

AIGC技术AI生成产品描述个性化内容生成小企业电商解决方案

HitPaw Official官网 – 释放创造力的AI音视频和照片工具

HitPaw Official是一个提供AI音频、视频和照片编辑工具的平台，用户可通过其多种功能进行创意表达和内容制作。该平台致力于简化编辑过程，提升作品质量，满足用户在视频、照片和音频处理上的多样需求。

0

AI照片处理工具AI音视频编辑工具去除照片水印提升音频质量

babelfish by sync开源项目 – 快速翻译视频，完美同步口型

这个项目允许您在不到15分钟的时间内，使用人工智能将任何视频翻译成任何语言，并确保完美的唇语同步。

0

AI驱动的翻译多语言支持完美唇语同步快速翻译视频

Ichigo Llama 3.1官网 – 开源的多语言语音处理项目

Ichigo Llama 3.1是一个开源的Llama语音项目，类似于OpenAI的语音模式，经过50K小时的语音训练，支持7种语言，能够进行实时语音AI处理，并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练，旨在提供高效、准确的语音识别与生成能力。

0

多语言支持实时语音识别开源语音处理项目智能应用

Kokoro 82M官网 – 高质量的文本转语音模型

Kokoro 82M 是一个高质量的 TTS 模型，能够生成极高音频质量的语音，同时模型大小不到 300M，便于部署和使用。该模型在 T4 上能够快速生成语音，并支持通过架构训练其他语言，且只需不到 100 小时的音频数据进行训练。

0

Hugging Face演示TTS模型语音合成高质量文本转语音模型

Long-Form Speech Generation with Spoken Language Models开源项目 – 生成连贯的长篇语音

该项目专注于使用先进的口语语言模型生成连贯的长篇语音，能够在多种应用场景中提供自然、流畅的语言输出。

0

口语语言模型有声读物虚拟助手连贯长篇语音生成

ermine-ai开源项目 – 实时音频转录的浏览器客户端

由transformers.js提供支持的浏览器里100％客户端运行的实时音频转录，支持多种语言，易于集成到网页应用中。

0

transformers.js多语言支持实时字幕生成实时音频转录

SenseVoice.cpp开源项目 – 多语言音频理解的端侧工具

音频基础模型：支持多语言音频理解的端侧部署工具，具备极低推理延迟，适用于语音识别、语种识别、语音情感识别和声学事件分类/检测

0

声学事件分类多语言音频理解工具语种识别语音情感识别

ChatTTS-OpenVoice开源项目 – 开源个性化语音生成工具

ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频，通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案，适用于多种应用场景。

0

ChatTTSOpenVoice个性化语音合成助手语音克隆

Qwen2-Audio开源项目 – 大规模音频语言模型

Qwen2-Audio是一个大规模音频语言模型，支持语音聊天和音频分析，能够处理各种音频信号输入并生成文本回应。

0

实时语音对话文本生成语音聊天音频信号处理

DreamTalk官网 – 让人物头像说话的AI项目

阿里AI项目DreamTalk开源，可让人物头像说话，支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。

0

AI项目人物头像对话动态对话嘈杂音频处理

Text2Listen开源项目 – 让语言模型能听懂人话并做出反应

Text2Listen项目旨在让大语言模型能够理解人类语言，并做出合适的面部表情和动作，从而增强与用户的互动体验。该项目通过分析说话者的语音内容，生成对应的面部反应，并使用VQ-VAE技术对面部手势进行量化，确保生成的听众动作流畅且准确反映语言语义。此外，项目还将复杂的手势分解为简单的基础元素，从而提升聊天机器人的自然对话体验。

0

聊天机器人自然对话虚拟角色语言模型交互

Music LLM开源项目 – 高效的音乐生成与文本转语音系统

基于 PyTorch 的音乐生成和文本到语音（TTS）系统的实现，该系统使用基于 LLaMA 的大型语言模型（LLMs），并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型

0

LLaMAPyTorch开源项目文本转语音

World’s Easiest GPT-like Voice Assistant开源项目 – 超简单的离线语音助手

超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。它不需要互联网连接或云服务支持。

0

AI语音识别本地运行的语音助手树莓派语音助手离线语音助手

Nexa SDK开源项目 – 全面支持多种模型的工具包

Nexa SDK是一款全面支持ONNX和GGML模型的工具包，具备文本生成、图像生成、视觉-语言模型（VLM）、自动语音识别（ASR）和文本到语音（TTS）功能，提供OpenAI兼容的API服务器，支持JSON模式调用函数和流媒体，配备用户友好的Streamlit UI，方便开发者使用和集成。