AI音频工具 | 第 33 页 | AI-magic

AI音频工具

UltraEval-Audio开源项目 – 快速评估音频大模型表现

UltraEval-Audio开源项目 – 快速评估音频大模型表现

UltraEval-Audio是一个评估音频大模型的工具，类似于给智能语音助手打分，能够快速、方便地测试其表现，旨在帮助开发者优化和提升语音相关应用的质量。

实时音频评估语音应用性能测试音频模型评估工具

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL开源项目 – 多模态大模型，理解长视频与文档

Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列，能够处理时长超过20分钟的视频，同时在文档理解方面表现出显著优势。该模型支持多模态输入，能够处理视频和文本数据，适用于多种应用场景。

信息提取图像处理多模态大模型文本翻译

WhisperBot开源项目 – 高效实时语音转文本系统

WhisperBot开源项目 – 高效实时语音转文本系统

整合了Mistral大型语言模型的实时语音转文本系统，基于WhisperLive和WhisperSpeech，提供高性能和低延迟处理。

会议记录实时语音转文本系统语音助手语音识别

Fish Speech 1.4官网 – 最新的开源文本转语音模型

Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型，支持多种语言，并提供即时语音克隆，具备超低延迟，约1GB的模型重量，模型权重可在Hub上获取。

多语言语音生成开源语音克隆文本转语音模型

MiniCPM-o开源项目 – 手机上的多模态智能助手

MiniCPM-o开源项目 – 手机上的多模态智能助手

MiniCPM-o 是一款轻量级多模态大语言模型，具有8B参数，能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理，性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能，支持多语言和多模态实时流媒体处理，广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。

个性化语音助手多模态大语言模型多模态直播移动设备智能应用

STT开源项目 – 深度学习语音转文本工具包

STT开源项目 – 深度学习语音转文本工具包

STT是一个经过实战验证的深度学习工具包，专注于语音转文本技术，适用于研究和生产环境。

多语言支持实时语音转文字开源工具深度学习语音转文本工具包

Spirit LM开源项目 – 一个强大的语音识别与生成模型

Spirit LM是一个端到端的语音模型，提供基础版和高表现力版，能够进行高效的语音识别和生成，支持直接使用语音标记等多种特性，适用于复杂任务的处理。

情感识别文本转语音自动语音识别语音生成

voicechat2开源项目 – 低延迟本地AI语音聊天

voicechat2开源项目 – 低延迟本地AI语音聊天

voicechat2是一款快速且完全本地化的AI语音聊天工具，使用WebSockets实现低延迟语音交互，支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术，能够在高性能硬件上实现极低的延迟，所有处理都在本地完成，确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等，用户可以根据需求灵活选择。

低延迟语音交互文本转语音本地化AI语音聊天工具语音识别

DeepSeek-R1-Sistill官网 – 量化版音频处理工具

DeepSeek-R1-Sistill是量化版本的音频处理工具，旨在适应各种计算环境，能够高效地进行声音处理及分析。

声音分析机器学习模型优化量化音频处理音频处理工具

Whisper Turbo官网 – 高效音频转录与翻译模型

Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型，基于 Large v3 模型的蒸馏，显著提高了运行速度和效率。该模型在保持高准确度的同时，提供了更佳的显存使用效率，适用于多种音频处理任务。

OpenAIWhisper Turbo机器学习应用音频翻译

Whisper Web开源项目 – 浏览器中直接运行的语音识别项目

Whisper Web开源项目 – 浏览器中直接运行的语音识别项目

Whisper Web 是一个开源项目，允许用户在浏览器中运行基于机器学习的语音识别，无需后端服务器。它利用 WebGPU 技术实现加速，用户可以轻松进行语音转文本，并支持将识别结果导出为 TXT 和 JSON 文件格式，完全开箱即用。

WebGPU加速开源项目浏览器语音转文本语音识别

Bark with Voice Clone开源项目 – 支持音色克隆的文本到音频生成

Bark with Voice Clone开源项目 – 支持音色克隆的文本到音频生成

Bark with Voice Clone 是一个支持音色克隆的文本到音频生成工具，能够处理中文文本，并允许用户根据自定义音频/文本对生成音频。该项目结合了生成音频模型和音色克隆技术，提供丰富的音频创作可能性。

文本到音频生成工具自定义音频生成音色克隆技术

Fish Speech开源项目 – 全新的文本转语音解决方案

Fish Speech开源项目 – 全新的文本转语音解决方案

Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案，支持Linux和Windows系统，能够满足多种应用需求。

文本转语音解决方案聊天机器人语音功能语音助手集成跨平台TTS

Awesome-ChatTTS开源项目 – ChatTTS项目的常见问题解答与资源汇总

Awesome-ChatTTS开源项目 – ChatTTS项目的常见问题解答与资源汇总

该项目汇总了ChatTTS的常见问题及相关资源，为用户提供最佳的入门指导，帮助用户快速上手和解决问题。

ChatTTS入门指导常见问题解答文本到语音应用资源汇总

Video Analyzer开源项目 – 视频内容分析工具

Video Analyzer开源项目 – 视频内容分析工具

视频内容分析工具，通过结合Llama3.2视觉模型和OpenAI的Whisper模型，本地生成视频描述，提供全面的视频分析解决方案。

Llama3.2视觉模型OpenAI Whisper模型视频内容分析工具视频描述生成

Moshi开源项目 – 实时对话的语音文本基础模型

Moshi开源项目 – 实时对话的语音文本基础模型

Moshi是一个实时对话的语音文本基础模型，使用先进的流式神经音频编解码器Mimi，支持双向语音流处理，具有低延迟和高效率的特点。

实时对话语音识别智能设备语音交互语音到文本转换语音助手

MusicGPT开源项目 – 生成音乐的本地AI应用

MusicGPT开源项目 – 生成音乐的本地AI应用

基于自然语言提示生成音乐的本地LLM应用，无需安装重型依赖即可高效运行最新的音乐生成AI模型。支持多种音乐风格和格式，用户可以通过输入文本提示及调整参数，轻松制作个性化音乐作品。

基于自然语言生成音乐本地音乐生成AI应用音乐风格定制音频格式导出

AI Podcast Generator开源项目 – 自动化生成流畅播客的工具

AI Podcast Generator开源项目 – 自动化生成流畅播客的工具

一款开源的自动化 AI 播客生成工具，能够自动抓取网络新闻内容，并生成听起来自然流畅的叙述性音频播客。

AI生成播客可视化界面文本转语音新闻内容抓取

TangoFlux开源项目 – 用AI快速实现高质量的文生音频

TangoFlux开源项目 – 用AI快速实现高质量的文生音频

TangoFlux 是一款超快且忠实的文字转音频生成器，采用流匹配技术，能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能，支持多种语言和音调，并提供易于集成的API，推动语音合成领域的发展。

API集成开源语音合成快速音频生成文本转音频生成器

Text-to-Sing官网 – 输入文字直接生成歌曲

Text-to-Sing项目允许用户输入歌词并通过上传旋律，让计算机按照该旋律演唱。该工具旨在简化音乐创作过程，使用户能够轻松生成歌曲。

AI生成歌曲Text-to-Sing音乐创作工具

MyHeyGen开源项目 – 开源AI语音合成与文本生成工具

MyHeyGen开源项目 – 开源AI语音合成与文本生成工具

MyHeyGen 是一个开源的AI工具，结合了语音合成和文本生成技术，能够实现逼真的语音效果和高效的内容创作，支持多种音频格式和语言，适用于个人创作及商业应用。

创意内容生成口型动画多语言支持学习材料生成

ebook2audiobook开源项目 – 将电子书轻松转换为有声书的工具

ebook2audiobook开源项目 – 将电子书轻松转换为有声书的工具

ebook2audiobook是一款开源工具，支持1100+种语言，能够将各类电子书一键转换为带章节的有声书，使用高质量的AI语音合成技术，并可克隆个人声音进行朗读，提供简单直观的网页界面和命令行模式，适合不同用户的需求。

AI语音合成克隆个人声音开源工具批量处理

Frechet Music Distance开源项目 – 音乐生成质量评估工具

Frechet Music Distance开源项目 – 音乐生成质量评估工具

音乐生成质量评估工具，用于比较生成音乐与真实音乐的相似度，帮助音乐生成模型的开发和优化

Frechet距离计算Python音乐比较工具音乐生成模型优化音乐生成质量评估工具

PTTS-WebAPP开源项目 – 基于Flask和Vue的语音合成演示

PTTS-WebAPP开源项目 – 基于Flask和Vue的语音合成演示

PTTS 网页演示 - Parallel TTS web demo based on Flask + Vue (Vuetify)。这是一个基于 Flask 和 Vue 的语音合成单网页演示项目，支持并行语音合成，提供现代化的用户界面，适用于浏览器的单页应用，易于使用和部署。

FlaskVue单页应用并行语音合成

AudioCraft官网 – 音频类生成式AI，已开源

AudioCraft是一个音频类生成式AI项目，由MusicGen、AudioGen和EnCodec三种模型组成，支持多种音频处理任务，具有强大的音频生成能力，并且是一个开源项目。

开源音频处理工具音频合成音频生成AI音频编码解码

firecrawl-openai-realtime开源项目 – 智能实时API工具

firecrawl-openai-realtime开源项目 – 智能实时API工具

该项目集成了Firecrawl的OpenAI实时API控制台，支持实时交互和音频管理，适用于浏览器和Node.js环境，用户可以通过声音引导AI代理实时爬取和浏览网站内容。

AI语音交互Node.js环境支持实时API工具网站内容爬取

GAIA开源项目 – 从图像和声音生成会说话的化身

GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。

个性化虚拟化身从图像生成视频动态角色生成在线教学化身

Local Talking LLM开源项目 – 离线语音助手，随时随地可用

Local Talking LLM开源项目 – 离线语音助手，随时随地可用

本地语音助手：无需联网即可在个人电脑上运行的语音助手，集成了语音识别和语音合成功能，打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验

个性化定制智能助手体验离线语音助手语音合成

VoiceBank-2023开源项目 – 个性化普通话TTS系统的语音语料库

VoiceBank-2023开源项目 – 个性化普通话TTS系统的语音语料库

专门为构建个性化普通话文本转语音(TTS)系统而设计的语音语料库，提供多样的语音样本，适合训练深度学习模型，支持多种语音合成技术的研究与应用，易于扩展和集成到现有的TTS框架中。

TTS框架集成个性化TTS系统深度学习模型训练语音合成技术

Mini-LLaVA开源项目 – 轻量级多模态大语言模型

Mini-LLaVA开源项目 – 轻量级多模态大语言模型

Mini-LLaVA是一款轻量级的多模态大语言模型，能够处理图像、文本和视频输入，实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发，提供了简约的实现和灵活的接口，方便用户进行快速开发和实验。

图像分析多模态数据处理智能问答视频流处理

1 … 31 32 33 34 35 … 72

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3