AI音频工具 | 第 32 页

Audiblez开源项目 – 电子书转有声书的工具

Audiblez是一个将电子书转换为有声书的工具，能够让用户在开车、健身等场景中轻松“阅读”，享受知识的乐趣，解放双眼。

0

命令行转换工具电子书转有声书工具高质量语音合成

Buzz官网 – 实时多语言语音转文字应用

Buzz是一个可以实时转文字的多语言语音转文字应用，支持处理语音和视频文件，适用于各种场景。

0

会议记录多语言语音转文字字幕生成实时语音转文字应用

Offmute开源项目 – 智能会议记录与分析工具

Offmute 是一款智能会议记录与分析工具，能够将音视频内容转换为文本，同时识别不同发言人，生成结构化会议报告，帮助用户更高效地管理会议内容。

0

会议内容分析智能会议记录工具结构化会议报告音视频转文本

Voice-Lab开源项目 – 全面的语音智能体测试框架

一个全面的语音智能体测试和评估框架，帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试，允许自定义评估指标，能够实现模型迁移和成本优化，同时系统地测试不同场景下的代理表现，非常适合语音助手的开发和迭代优化。

0

LLM驱动的语音助手优化自定义评估指标语言模型对比测试语音智能体测试框架

M-AILABS Speech Dataset开源项目 – 免费语音数据集，助力AI应用

M-AILABS语音数据集：免费提供用于语音识别和语音合成的大型语音数据集，旨在帮助企业和开发者更好地利用人工智能和机器学习技术。

0

AI应用支持免费语音数据集语音合成训练数据语音识别训练数据

ComfyUI-MMAudio开源项目 – 音频处理工具，简化音频模型使用

一款将MMAudio集成到ComfyUI的音频处理工具，旨在简化音频模型的加载和使用，提高音频编辑的便捷性和效率

0

ComfyUI集成MMAudio音频模型音频处理工具音频编辑功能

WhisperX开源项目 – 用于识别字幕的工具

WhisperX 是一个高效的语音识别工具，专门用于生成精确的字幕，支持多种音频格式，适合处理直播或录制的视频内容。

0

字幕生成工具实时字幕识别语音识别工具

Action2Sound官网 – 为视频生成环境音效的AI模型

为了解决AI生成的视频缺少音效的问题，Action2Sound提供了一种环境感知动作声音生成的模型，能够根据视频内容生成相应的音效，极大提升了视频的表现力和观看体验。

0

AI生成视频音效动作声音生成环境音效生成虚拟现实音效

ChatMusician开源项目 – 生成音乐的开源大型语言模型

通过LLM本质上理解和生成音乐的开源大型语言模型，能够生成结构良好的完整音乐，超越GPT-4基线。

0

生成音乐的开源大型语言模型音乐创作工具音乐压缩器音乐理解与分析

Gemini多模态试炼场开源项目 – 构建实时语音与视频代理的工具

Gemini多模态试炼场是一个用于构建实时语音和视频代理的 Python 应用，借助 Google 的新 Gemini 2.0 模型，支持实时语音和视频输入以及音频回应。该应用程序提供两种版本：完整的全栈 web 应用程序和独立的 Python 脚本，方便用户根据需求选择。

0

Google Gemini 2.0Python 应用多模态应用实时视频代理

Gemini 1.5 Pro官网 – 高效的多模态混合专家模型

一种计算效率高的多模态混合专家模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。

0

多模态混合专家模型模型性能评估稀有语言翻译视频内容分析

audio-foundation-model-dataset开源项目 – 构建音频模型的数据集

整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表，以及相关的元数据和获取途径。该项目旨在帮助研究人员和开发者快速找到所需的音频数据集，以便进行模型训练和分析。

0

音频分析工具音频数据集音频模型构建

Whispo开源项目 – AI驱动的语音听写工具

Whispo是一款AI驱动的语音听写工具，能够让用户按住Ctrl键录音并自动转写文本。它兼容任何文本输入应用，确保数据仅存储在本地以保障用户隐私。此外，Whispo还支持使用自定义API和后处理语言模型进行转写，提供灵活的使用体验。

0

AI驱动的语音听写工具后处理语言模型用户隐私保障自动转写文本

NotebookLM开源项目 – 自然对话与音频生成工具

NotebookLM是一款结合了Deepseek-V3语言理解和PlayHT文本转语音功能的开源工具，能生成自然流畅的对话并将其转换为逼真的音频，适用于教育和娱乐领域。

0

互动式学习工具教育应用文本转语音聊天机器人开发

ArXiv Paper Reader开源项目 – 简化arXiv论文阅读的工具

ArXiv Paper Reader旨在简化和流利地阅读arXiv论文，使用LaTeX代码转换为HTML页面，然后提取文本和公式，将其转换为视频，同时创建与PDF文档相匹配的图形，并将文本分段以转换为音频。这一工具使得研究者和学生能够更高效地获取和理解论文内容。

0

arXiv论文阅读工具LaTeX转HTML文本音频转换研究者工具

MM-LLM-多模态大型语言模型的最新进展

MM-LLM是一个增强现有大型语言模型的框架，支持多模态输入和输出，同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计，并回顾了在主流基准上的表现，旨在推动多模态任务的发展。

0

多模态任务多模态大型语言模型推理与决策模型架构

Eliza开源项目 – 为Twitter和Discord设计的对话Agent

Eliza是一个为Twitter和Discord平台设计的对话Agent，能够模拟多个角色进行实时交流。它支持语音频道，并具备阅读链接、PDF文件的能力，能够转录音频和视频内容，同时总结对话要点。此外，Eliza还允许用户扩展自定义动作和客户端，提供更加个性化的使用体验。

0

DiscordPDF处理Twitter多角色模拟

RealtimeSTT_LLM_TTS开源项目 – 智谱AI驱动的实时语音处理工具

RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具，支持实时语音转文字和语音合成，能够通过网页实现跨网络服务调用，方便用户在不同场景中进行高效的语音交互。

0

AI驱动的语音处理工具实时语音转文字语音合成跨网络服务调用

Towhee开源项目 – 开源嵌入框架，处理非结构化数据

Towhee 是一个开源的嵌入框架与社区，旨在帮助用户使用深度学习的方法处理非结构化数据，如图片、视频和自然语言。

0

图像嵌入开源嵌入框架深度学习自然语言处理

Colaboratory Notebook for Ultimate Vocal Remover开源项目 – 一个人声分离的工具

一个用于人声分离的工具，旨在帮助用户从音乐中去除人声，保留伴奏。

0

人声分离工具实时音频处理深度学习音频处理用户友好的音频工具

streamlit-stt-app开源项目 – 实时语音转文本应用

这是一个基于Streamlit的实时网页语音转文本应用，能够快速将语音转换为文本，支持多种音频输入方式，易于使用和部署。

0

Streamlit实时语音转文本应用语音识别音频转录

The Song Describer Dataset开源项目 – 用于音乐与语言模型评估的数据集

这是一个音频字幕的数据集，旨在评估音乐与语言模型的性能，包含多种歌曲的音频描述，促进音乐与自然语言处理交叉领域的研究。

0

自然语言处理音乐与语言模型评估音乐分类任务音频字幕数据集

NExT-GPT-下一代多模态生成模型

NExT-GPT是一个先进的多模态生成模型，能够处理文本、图像、视频和音频等多种输入，以任意组合生成丰富的输出。它仅需调整少量参数，具有低成本训练的优势，同时具备复杂的跨模态语义理解和内容生成能力，适合扩展到更多的应用场景。

0

人工智能研究内容生成多模态生成模型跨模态语义理解

VisionCrafter开源项目 – 从文本生成动画与音乐的工具

VisionCrafter是一个具有图形用户界面的工具，支持AnimateDiff和其他项目，能够从文本生成动画和音乐。它非常适合制作短视频和GIF，以及创建简短的电影场景。

0

GIF制作文本生成动画文本生成音乐电影场景创建

音乐基础模型-先进的音乐生成与分析工具

音乐基础模型是一个全面概述音乐领域最先进的预训练模型和基础模型，旨在为音乐创作和分析提供强大的支持。它基于深度学习技术，能够生成高质量的音乐作品，理解多种音乐风格，并具备出色的处理能力。

0

深度学习音乐创作音乐分析工具音乐推荐系统音乐生成工具

Text2midi开源项目 – 将文字转化为MIDI音乐

一款将文字描述转化为MIDI音乐文件的模型，能让用户根据详细的文本提示生成符合特定和弦、节奏和风格的符号音乐，为音乐创作带来全新的便捷方式

0

AI音乐创作工具MIDI文件导出文本转MIDI音乐生成器

on-device-transcription开源项目 – 实时语音转文本助手

Hugo-Dz语音转文本助手是一款轻量级应用，能够将任何语音实时转换为文字，完全本地处理，使用Ratchet技术，支持作为网站部署或构建为桌面应用。

0

Ratchet技术实时语音转文本助手本地处理语音转录网站和桌面应用部署

Whisper-V3开源项目 – 目前最好的 OSS 语音识别模型

Whisper-V3 是最新的开放源代码语音识别模型，相较于 Whisper-V2 有了显著改进，能够将音频直接转换为文本，并支持多任务处理，适用于多种应用场景。

0

实时语音翻译开源语音识别时间戳对齐语音识别模型

MLX Omni Server开源项目 – 本地推理服务器，专为Apple Silicon优化

一款基于苹果MLX框架的本地推理服务器，专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口，实现文本对话、语音转换、图像生成等AI能力。

0

Apple Silicon优化OpenAI兼容API本地推理服务器硬件加速

Linly-Dubbing开源项目 – 智能视频多语言AI配音工具

Linly-Dubbing是一款开源且强大的视频多语言AI配音/翻译工具，能够一键自动下载全平台视频，对视频字幕进行翻译，还能对原视频进行人声分离，克隆音色并重新配音，再对视频进行合成，全过程自动化。它融合了YouDub-webui的灵感并进行了优化，致力于提供多样化和高质量的配音选择。

0

AI配音工具声音克隆多语言翻译自动下载视频