UltraEval-Audio是一个评估音频大模型的工具,类似于给智能语音助手打分,能够快速、方便地测试其表现,旨在帮助开发者优化和提升语音相关应用的质量。
Qwen2-VL是由Qwen团队和阿里云开发的多模态大语言模型系列,能够处理时长超过20分钟的视频,同时在文档理解方面表现出显著优势。该模型支持多模态输入,能够处理视频和文本数据,适用于多种应用场景。
整合了Mistral大型语言模型的实时语音转文本系统,基于WhisperLive和WhisperSpeech,提供高性能和低延迟处理。
Fish Speech 1.4 是一个经过 700K 小时语音训练的开源文本转语音模型,支持多种语言,并提供即时语音克隆,具备超低延迟,约1GB的模型重量,模型权重可在Hub上获取。
MiniCPM-o 是一款轻量级多模态大语言模型,具有8B参数,能够在手机、iPad等终端设备上高效运行。它支持视觉、语音和多模态实时流媒体处理,性能达到GPT-4o水平。MiniCPM-o 具备领先的视觉能力、创新的语音交互功能,支持多语言和多模态实时流媒体处理,广泛应用于实时语音对话、OCR、视频理解、多语言支持等场景。
STT是一个经过实战验证的深度学习工具包,专注于语音转文本技术,适用于研究和生产环境。
Spirit LM是一个端到端的语音模型,提供基础版和高表现力版,能够进行高效的语音识别和生成,支持直接使用语音标记等多种特性,适用于复杂任务的处理。
voicechat2是一款快速且完全本地化的AI语音聊天工具,使用WebSockets实现低延迟语音交互,支持本地运行语音识别、文本转语音以及大语言模型。它结合了SRT、LLM和TTS技术,能够在高性能硬件上实现极低的延迟,所有处理都在本地完成,确保数据隐私和安全性。支持多种模型如Whisper、Llama 3、VITS等,用户可以根据需求灵活选择。
DeepSeek-R1-Sistill是量化版本的音频处理工具,旨在适应各种计算环境,能够高效地进行声音处理及分析。
Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型,基于 Large v3 模型的蒸馏,显著提高了运行速度和效率。该模型在保持高准确度的同时,提供了更佳的显存使用效率,适用于多种音频处理任务。
Whisper Web 是一个开源项目,允许用户在浏览器中运行基于机器学习的语音识别,无需后端服务器。它利用 WebGPU 技术实现加速,用户可以轻松进行语音转文本,并支持将识别结果导出为 TXT 和 JSON 文件格式,完全开箱即用。
Bark with Voice Clone 是一个支持音色克隆的文本到音频生成工具,能够处理中文文本,并允许用户根据自定义音频/文本对生成音频。该项目结合了生成音频模型和音色克隆技术,提供丰富的音频创作可能性。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
该项目汇总了ChatTTS的常见问题及相关资源,为用户提供最佳的入门指导,帮助用户快速上手和解决问题。
视频内容分析工具,通过结合Llama3.2视觉模型和OpenAI的Whisper模型,本地生成视频描述,提供全面的视频分析解决方案。
Moshi是一个实时对话的语音文本基础模型,使用先进的流式神经音频编解码器Mimi,支持双向语音流处理,具有低延迟和高效率的特点。
基于自然语言提示生成音乐的本地LLM应用,无需安装重型依赖即可高效运行最新的音乐生成AI模型。支持多种音乐风格和格式,用户可以通过输入文本提示及调整参数,轻松制作个性化音乐作品。
一款开源的自动化 AI 播客生成工具,能够自动抓取网络新闻内容,并生成听起来自然流畅的叙述性音频播客。
TangoFlux 是一款超快且忠实的文字转音频生成器,采用流匹配技术,能够快速将文本转换为高质量的音频。它具有惊人的效率和领先的性能,支持多种语言和音调,并提供易于集成的API,推动语音合成领域的发展。
Text-to-Sing项目允许用户输入歌词并通过上传旋律,让计算机按照该旋律演唱。该工具旨在简化音乐创作过程,使用户能够轻松生成歌曲。
MyHeyGen 是一个开源的AI工具,结合了语音合成和文本生成技术,能够实现逼真的语音效果和高效的内容创作,支持多种音频格式和语言,适用于个人创作及商业应用。
ebook2audiobook是一款开源工具,支持1100+种语言,能够将各类电子书一键转换为带章节的有声书,使用高质量的AI语音合成技术,并可克隆个人声音进行朗读,提供简单直观的网页界面和命令行模式,适合不同用户的需求。
音乐生成质量评估工具,用于比较生成音乐与真实音乐的相似度,帮助音乐生成模型的开发和优化
PTTS 网页演示 - Parallel TTS web demo based on Flask + Vue (Vuetify)。这是一个基于 Flask 和 Vue 的语音合成单网页演示项目,支持并行语音合成,提供现代化的用户界面,适用于浏览器的单页应用,易于使用和部署。
AudioCraft是一个音频类生成式AI项目,由MusicGen、AudioGen和EnCodec三种模型组成,支持多种音频处理任务,具有强大的音频生成能力,并且是一个开源项目。
该项目集成了Firecrawl的OpenAI实时API控制台,支持实时交互和音频管理,适用于浏览器和Node.js环境,用户可以通过声音引导AI代理实时爬取和浏览网站内容。
GAIA是一个可以从单个肖像图像和语音片段生成会说话的化身的人工智能项目。它支持通过文字提示来指导视频生成。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
专门为构建个性化普通话文本转语音(TTS)系统而设计的语音语料库,提供多样的语音样本,适合训练深度学习模型,支持多种语音合成技术的研究与应用,易于扩展和集成到现有的TTS框架中。
Mini-LLaVA是一款轻量级的多模态大语言模型,能够处理图像、文本和视频输入,实现高效且灵活的多模态数据处理。其设计旨在简化多模态应用的开发,提供了简约的实现和灵活的接口,方便用户进行快速开发和实验。