AI音频工具 | 第 7 页

LLaMA-Omni开源项目 – 端到端语音对话模型开发工具

LLaMA-Omni项目旨在复现LLaMA-Omni的训练代码，为开发者提供完整的训练流程，涵盖两个阶段的训练。项目使用bf16精度训练，有效避免loss nan问题，并提供100条数据用于快速验证模型训练效果。

0

bf16精度训练LLaMA-Omni开源项目快速验证模型端到端语音对话模型

VoiceMind开源项目 – 开源语音理解框架

VoiceMind是一个专为语音理解任务设计的开源框架，为开发者提供构建高效音频分析系统的工具。它支持语音转文本与语义解析，优化语音交互体验。

0

分布式计算加速实时语音处理开源语音理解框架语义解析

RWKV-SpeechChat开源项目 – 智能语音交互系统

RWKV-SpeechChat是一个基于3B RWKV模型的实时对话脚本，支持多种音频任务，包括语音识别、翻译、问答等，旨在提供类似GPT-4的智能交互体验。该脚本支持本地部署，仅需6GB显存即可运行，适用于多种语音处理场景。

0

实时对话脚本智能语音交互系统本地部署语音翻译

WorldRWKV开源项目 – 多模态理解与推理模型

WorldRWKV是一个基于纯RWKV7架构的模型，旨在实现任意模态的训练和推理，使模型能够轻松理解多种输入形式。它支持多种模态的输入（如视觉、语音）并输出文本，提供端到端的跨模态推理能力，性能卓越，例如在视觉问答任务中准确率高达78.30%。

0

多模态理解模型视觉问答语音生成文本跨模态推理

Whisper Edge开源项目 – 边缘设备实时语音转录

Whisper Edge 是一个专为边缘设备设计的实时语音转录工具，利用硬件机器学习加速器实现始终在线的语音识别。它支持 Jetson Nano 和 Coral Edge TPU 设备，能够在这些设备上高效运行，适用于多种场景，如智能家居、工业自动化和医疗设备。

0

Coral Edge TPUJetson Nano实时语音识别硬件机器学习加速器

DiffRhythm AI官网 – 快速生成完整歌曲的AI音乐生成器

DiffRhythm AI是一款基于先进潜在扩散技术的免费AI音乐生成器，能够在几秒钟内生成包含人声和伴奏的完整歌曲。用户只需输入歌词并选择风格提示，即可快速生成全长音乐。

0

AI音乐生成器快速生成歌曲潜在扩散技术背景音乐生成

Applio开源项目 – 高效语音转换与克隆工具

Applio是一款基于VITS模型的语音转换工具，专注于简洁性、质量和性能。它经过精心优化，旨在提供卓越的性能、模块化和用户友好的体验。支持多种语音转换场景和多语言翻译，适用于语音合成、语音克隆、音频编辑等多种任务。

0

VITS模型多语言翻译语音克隆语音转换工具

FastSpeech2开源项目 – 高效端到端语音合成模型

FastSpeech2是一款高效的端到端语音合成模型，基于Transformer架构，通过引入声学和韵律信息，能够生成自然、流畅且符合人类说话特点的语音。该模型具有较低的推理延迟，适合实时语音合成系统，广泛应用于语音助手、有声书和智能客服等场景。

0

基于Transformer架构实时语音合成系统智能客服与机器人智能语音助手

Friend开源项目 – 开源AI可穿戴设备

Friend是一款结合AI与硬件的开源可穿戴设备，旨在通过实际项目帮助技术人员学习AI，并提供悬赏机制以激励贡献。它支持实时语音分析，提供主动反馈和建议，单次充电可持续使用24小时以上。同时，Friend也是一款开源的可穿戴AI项链，彻底改变了捕捉和管理对话的方式，通过连接到移动设备，用户可以随时随地享受自动、高质量的会议、聊天和语音备忘录转录。

0

AI与硬件结合实时语音分析开源AI可穿戴设备开源社区贡献

Sonic开源项目 – 腾讯出品的音频驱动肖像动画工具

Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具，核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号，仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动，生成流畅自然的视频。Sonic在口型同步、表情和头部运动方面表现出色，尤其适合长视频生成。

0

AI数字人生成工具口型同步头部运动动画腾讯开源项目

YouTube Transcripts Machine开源项目 – 自动提取YouTube视频字幕和摘要的工具

YouTube Transcripts Machine 是一个开源工具，能够自动从任何YouTube视频中提取带时间戳的字幕文本，并利用AI技术快速生成视频内容摘要。该工具支持交互式时间戳、一键复制和下载功能，适用于桌面和移动设备。

0

AI辅助学习YouTube字幕提取开源工具视频摘要生成

Local-NotebookLM开源项目 – 本地AI驱动的PDF转播客工具

Local-NotebookLM 是一个本地AI工具，利用本地大型语言模型（LLM）和文本转语音（TTS）模型，将PDF文档转换为引人入胜的播客。该工具支持多种LLM提供商，提供多种播客风格和长度定制，满足不同内容需求。完全本地化操作确保数据隐私和安全。

0

PDF转播客数据隐私文本转语音本地AI工具

west开源项目 – 简洁高效的语音转录系统

west是一款基于大型语言模型（LLM）的语音转录系统，仅用300行代码实现。它支持多种LLM和语音编码器，如LLaMA、QWEN、Whisper等，具有高性能和高准确率的语音转录能力。通过模块化设计，west由LLM、语音编码器和可训练的投影器组成，仅需训练投影器，提高了训练效率。

0

LLMWhisper大型语言模型自定义解码

Omi开源项目 – 开源AI可穿戴设备

Omi是一款开源AI可穿戴设备，旨在革新对话捕捉和管理方式。它能够实现随时随地的高质量会议、聊天和语音备忘录的自动转录，帮助用户更高效地管理和记录重要信息。

0

会议自动转录开源AI可穿戴设备聊天自动转录语音备忘录自动转录

Vox Box开源项目 – 多功能语音转换服务器

Vox Box 是一个兼容 OpenAI API 的文本转语音和语音转文本服务器，支持 Whisper、FunASR、Bark 和 CosyVoice 等后端模型。它能够处理多种语言和应用场景，提供广泛的语音选项，满足多样化的语音合成需求，并能够无缝集成到现有的 AI 工作流程中。

0

OpenAI API 兼容多功能语音转换服务器文本转语音语音转文本

ComfyUI_EchoMimic开源项目 – 音频驱动人像动画插件

ComfyUI_EchoMimic是一款集成EchoMimic功能的ComfyUI插件，能够实现逼真的音频驱动人像动画。通过可编辑的标志点调节，使动画更加生动自然，适用于视频制作、虚拟角色动画以及增强虚拟会议或直播中的角色表现。

0

ComfyUI插件虚拟会议增强虚拟角色动画视频制作

Taranis开源项目 – 高效相似性搜索引擎

Taranis是一个基于Faiss库构建的相似性搜索引擎，旨在从数亿个查询向量（图像或声音的通用数学和简化表示）中找到最相似的向量。在拥有足够内存的情况下，它可以扩展到处理数十亿个向量。

0

Faiss库大数据集处理相似性搜索引擎高维向量搜索

EchoMimic开源项目 – 音频驱动的肖像动画生成工具

EchoMimic是一个基于音频驱动的肖像动画生成工具，通过可编辑的特征点条件生成逼真、自然的动画，用户可以根据自己的需求调整动画细节。它支持音频驱动、姿势驱动以及两者的混合驱动，适用于虚拟主播、视频编辑、教育、娱乐等多种场景。EchoMimic提供WebUI和GradioUI，界面友好，操作简便，效果优于同类工具，表情丰富，动作流畅。

0

多媒体内容创作虚拟主播动画生成视频编辑工具音频驱动的肖像动画生成工具

FlowDec开源项目 – 低比特率全频带音频编解码器

FlowDec是一种专为48kHz采样的通用音频设计的神经网络全频带音频编解码器，支持7.5 kbps或4.5 kbps的低比特率传输。它结合了非对抗性编解码器训练与基于条件流匹配的随机后滤波器，提供高感知质量的音频处理，并支持低比特率下的全频带音频传输。

0

低比特率音频编解码器开源音频编解码器神经网络音频处理

OpenOmni开源项目 – 开源多模态大语言模型

OpenOmni 是一个开源的多模态大语言模型，旨在解决多模态数据稀缺和计算资源有限的问题。它能够实时生成带有情感的语音，支持语音、文本、图像和视频的多模态理解，并提供两种实时情感语音生成模式（CTC模式和AR模式），以平衡速度与质量。其灵活的框架设计使其能够快速应用于多种下游任务，如语音导航和多角色对话。

0

多模态大语言模型多角色对话系统实时情感语音生成语音导航

VoiceInk官网 – 开源离线语音转文字应用

VoiceInk 是一款适用于 macOS 的开源语音转文字应用，能够准确且离线地将语音转录为文本。用户只需在 macOS 设备上安装该应用，即可开始使用，语音将几乎实时转换为文字。

0

实时转录开源语音转文字离线语音识别

Podcastify官网 – 网页内容转播客

Podcastify是一款Chrome扩展程序，能够将网页内容转换为播客脚本并朗读出来。用户只需安装扩展、设置OpenAI API密钥，浏览网页即可开始播客。

0

OpenAI API智能生成内容朗读功能网页转播客

ViralContent官网 – AI助力LinkedIn互动

ViralContent是一款基于AI的Chrome扩展工具，旨在帮助专业人士和营销人员生成引人入胜的LinkedIn回复。它通过可定制的提示，帮助用户提升LinkedIn互动效果，同时保持品牌声音的一致性，节省时间。

0

AI生成LinkedIn回复Chrome扩展工具提升LinkedIn互动

algoMIDI开源项目 – 算法生成音乐的创新工具

algoMIDI是一款利用算法生成音乐的创新工具，通过将细胞自动机规则（如‘生命游戏’）和图遍历算法（如BFS/DFS）转化为音乐，用户可以创造出独特的旋律。该工具还提供虚拟钢琴实时反馈功能，直观展示音符的生成过程，使用户能够实时查看和调整生成的音乐。

0

图遍历算法算法生成音乐细胞自动机规则虚拟钢琴反馈

Ai Repeater官网 – 智能语言学习工具

Ai Repeater 是一款语言学习工具，允许用户从本地存储或 YouTube 中分割和合并音频/视频文件，以进行有效的语言练习。它提供智能重复、发音比较和内置语音词典等功能，以增强学习效果。

0

发音比较智能重复视频处理语言学习工具

EngagexAI官网 – AI驱动的视频和播客自动生成工具

EngagexAI是一款利用人工智能技术自动生成视频和播客的工具，能够快速进行编辑和制作。用户只需输入内容创意，EngagexAI便能高效地处理视频和音频的生成，适用于多种场景，如短视频制作、播客生产、无面孔视频设计以及有声书生成等。

0

AI播客生成工具AI视频生成工具无面孔视频设计有声书生成

AI-YinMei开源项目 – 多功能AI虚拟主播

AI吟美是一款多功能的人工智能虚拟主播（Vtuber），支持唱歌、绘画、语音合成、聊天等功能，并可在Bilibili直播中与观众互动。该项目集成了多个AI模型和服务，如GPT-SoVITS、Bert-VITS2语音合成、fastgpt聊天模型、stable-diffusion绘画模型等，支持多种舞蹈形式、场景切换和换装，提供详细的安装指南和配置文件，支持在Windows和Linux系统上运行，并且是开源项目，欢迎开发者贡献代码和提出改进建议。

0

AI虚拟主播实时互动开源项目绘画生成

WhisperChain开源项目 – 实时语音转录与润色工具

WhisperChain 是一款结合了实时语音识别、语音清洗、全局热键支持和自动剪贴板集成功能的工具，旨在提高工作效率。它能够自动清理口头禅，优化表达，适用于会议记录、语音文档撰写、市场分析报告和客户反馈整理等多种场景。

0

实时语音转文字开源工具提升工作效率自动文本润色

Speech Trident开源项目 – 语音/音频模型资源整合

Speech Trident 是一个专注于收集和整理语音/音频领域的大语言模型(LLM)、表示学习和编解码模型的资源列表。该项目旨在为研究者和开发者提供一个全面的参考和指南，帮助他们快速找到相关的模型和工具，推动语音/音频领域的机器学习研究和应用。

0

开源项目语音模型资源整合音频模型资源整合