Audiblez是一个将电子书转换为有声书的工具,能够让用户在开车、健身等场景中轻松“阅读”,享受知识的乐趣,解放双眼。
Buzz是一个可以实时转文字的多语言语音转文字应用,支持处理语音和视频文件,适用于各种场景。
Offmute 是一款智能会议记录与分析工具,能够将音视频内容转换为文本,同时识别不同发言人,生成结构化会议报告,帮助用户更高效地管理会议内容。
一个全面的语音智能体测试和评估框架,帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试,允许自定义评估指标,能够实现模型迁移和成本优化,同时系统地测试不同场景下的代理表现,非常适合语音助手的开发和迭代优化。
M-AILABS语音数据集:免费提供用于语音识别和语音合成的大型语音数据集,旨在帮助企业和开发者更好地利用人工智能和机器学习技术。
一款将MMAudio集成到ComfyUI的音频处理工具,旨在简化音频模型的加载和使用,提高音频编辑的便捷性和效率
WhisperX 是一个高效的语音识别工具,专门用于生成精确的字幕,支持多种音频格式,适合处理直播或录制的视频内容。
为了解决AI生成的视频缺少音效的问题,Action2Sound提供了一种环境感知动作声音生成的模型,能够根据视频内容生成相应的音效,极大提升了视频的表现力和观看体验。
通过LLM本质上理解和生成音乐的开源大型语言模型,能够生成结构良好的完整音乐,超越GPT-4基线。
Gemini多模态试炼场是一个用于构建实时语音和视频代理的 Python 应用,借助 Google 的新 Gemini 2.0 模型,支持实时语音和视频输入以及音频回应。该应用程序提供两种版本:完整的全栈 web 应用程序和独立的 Python 脚本,方便用户根据需求选择。
一种计算效率高的多模态混合专家模型,能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。
整理和提供用于构建通用语音、音频和音乐基础模型的数据集列表,以及相关的元数据和获取途径。该项目旨在帮助研究人员和开发者快速找到所需的音频数据集,以便进行模型训练和分析。
Whispo是一款AI驱动的语音听写工具,能够让用户按住Ctrl键录音并自动转写文本。它兼容任何文本输入应用,确保数据仅存储在本地以保障用户隐私。此外,Whispo还支持使用自定义API和后处理语言模型进行转写,提供灵活的使用体验。
NotebookLM是一款结合了Deepseek-V3语言理解和PlayHT文本转语音功能的开源工具,能生成自然流畅的对话并将其转换为逼真的音频,适用于教育和娱乐领域。
ArXiv Paper Reader旨在简化和流利地阅读arXiv论文,使用LaTeX代码转换为HTML页面,然后提取文本和公式,将其转换为视频,同时创建与PDF文档相匹配的图形,并将文本分段以转换为音频。这一工具使得研究者和学生能够更高效地获取和理解论文内容。
MM-LLM是一个增强现有大型语言模型的框架,支持多模态输入和输出,同时保持其推理和决策能力。该项目提供全面的模型架构和训练管道设计,并回顾了在主流基准上的表现,旨在推动多模态任务的发展。
Eliza是一个为Twitter和Discord平台设计的对话Agent,能够模拟多个角色进行实时交流。它支持语音频道,并具备阅读链接、PDF文件的能力,能够转录音频和视频内容,同时总结对话要点。此外,Eliza还允许用户扩展自定义动作和客户端,提供更加个性化的使用体验。
RealtimeSTT_LLM_TTS是一个结合流式大型语言模型和GPT-SOVITS的工具,支持实时语音转文字和语音合成,能够通过网页实现跨网络服务调用,方便用户在不同场景中进行高效的语音交互。
Towhee 是一个开源的嵌入框架与社区,旨在帮助用户使用深度学习的方法处理非结构化数据,如图片、视频和自然语言。
一个用于人声分离的工具,旨在帮助用户从音乐中去除人声,保留伴奏。
这是一个基于Streamlit的实时网页语音转文本应用,能够快速将语音转换为文本,支持多种音频输入方式,易于使用和部署。
这是一个音频字幕的数据集,旨在评估音乐与语言模型的性能,包含多种歌曲的音频描述,促进音乐与自然语言处理交叉领域的研究。
NExT-GPT是一个先进的多模态生成模型,能够处理文本、图像、视频和音频等多种输入,以任意组合生成丰富的输出。它仅需调整少量参数,具有低成本训练的优势,同时具备复杂的跨模态语义理解和内容生成能力,适合扩展到更多的应用场景。
VisionCrafter是一个具有图形用户界面的工具,支持AnimateDiff和其他项目,能够从文本生成动画和音乐。它非常适合制作短视频和GIF,以及创建简短的电影场景。
音乐基础模型是一个全面概述音乐领域最先进的预训练模型和基础模型,旨在为音乐创作和分析提供强大的支持。它基于深度学习技术,能够生成高质量的音乐作品,理解多种音乐风格,并具备出色的处理能力。
一款将文字描述转化为MIDI音乐文件的模型,能让用户根据详细的文本提示生成符合特定和弦、节奏和风格的符号音乐,为音乐创作带来全新的便捷方式
Hugo-Dz语音转文本助手是一款轻量级应用,能够将任何语音实时转换为文字,完全本地处理,使用Ratchet技术,支持作为网站部署或构建为桌面应用。
Whisper-V3 是最新的开放源代码语音识别模型,相较于 Whisper-V2 有了显著改进,能够将音频直接转换为文本,并支持多任务处理,适用于多种应用场景。
一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。
Linly-Dubbing是一款开源且强大的视频多语言AI配音/翻译工具,能够一键自动下载全平台视频,对视频字幕进行翻译,还能对原视频进行人声分离,克隆音色并重新配音,再对视频进行合成,全过程自动化。它融合了YouDub-webui的灵感并进行了优化,致力于提供多样化和高质量的配音选择。