AI音频工具 | 第 37 页

AI Voice Chat是一个基于React的语音交互应用，结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术，支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行，显存占用33G，比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成，支持多种语言和方言，适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。

0

低延迟语音交互多语言支持客服机器人集成教育培训

OpenVoice开源项目 – 开源语音克隆与合成技术

OpenVoice 是一个由 MyShell 与 MIT 联合开发的开源文本转语音模型，支持多语言语音克隆与合成。其最新版本 OpenVoice V2 仅需一小段人声即可克隆语音，并提供细粒度控制功能，适用于语音助手、游戏角色语音、多语言音频内容生成等多种场景。

0

多语言语音生成情感语音合成语音克隆高效语音转换

AudioGradio开源项目 – 一键启动的音乐生成工具

AudioGradio是一个集成了Audiocraft MusicGen和AudioGen的Web界面，用户可以通过简单的操作生成高质量的音频内容，体验音乐创作的乐趣。

0

Audiocraft MusicGenAudioGen一键启动音乐生成音频生成工具

The Audio Transformers Course开源项目 – Hugging Face音频Transformer课程资料

该课程提供了基于Transformer架构的音频处理技术，包含丰富的音频数据集和预训练模型，支持多种音频任务如分类、生成和转录，并结合实用示例和代码演示，帮助学习者掌握音频处理的最新技术。

0

Transformer架构数据集音频分类音频处理

SwiftWhisper开源项目 – Swift调用的语音识别库

SwiftWhisper是基于Whisper.cpp二次封装后，让Swift方便调用的库，基于它可以方便的开发语音识别转文字类的Whisper应用。

0

Swift语音识别库Whisper应用开发实时语音转文字

Emotivoice开源项目 – 情感驱动的中英语音合成引擎

Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎，提供多达2000种语音选项，旨在通过情感分析与合成技术提升语音交互体验。

0

中英双语TTS引擎开源语音合成情感识别与合成情感驱动语音合成

insanely-fast-whisper开源项目 – 音频转录与语音分段的新实现

一个名为 insanely-fast-whisper 的新实现，使用 OpenAI's Whisper Large v3，适用于 Mac 或 Nvidia GPU，结合 Whisper + Pyannote 库加速音频转录和语音分段。

0

OpenAI Whisperpyannote批处理转录语音分段

Seamless Communication开源项目 – Meta推出的实时语音翻译模型

Meta 新推出的实时语音翻译模型 Seamless，能保持原声的表情和风格。该模型具备强大的语音生成和翻译能力，超越了现有的技术，提供自然流畅的多语言交流体验。

0

Seamless模型多语言交流实时语音翻译情感表达保留

TTS Generation WebUI (Bark v2, MusicGen, Tortoise, Vocos)开源项目 – 多模型支持的文本到语音生成工具

一个用于文本到语音生成的Web用户界面，支持多种语音合成模型，用户可以轻松创建高质量的语音合成音频。

0

多模型支持实时语音合成文本到语音生成工具用户友好的Web界面

metahuman-stream开源项目 – 实时交互流式数字人

metahuman-stream 是一个基于ernerf模型的流式数字人项目，实现音视频同步对话，基本可以达到商用效果。该项目支持多种数字人模型（如ernerf、musetalk、wav2lip），并具备声音克隆、数字人说话被打断处理、全身视频拼接等功能。此外，它还支持rtmp和webrtc推流，以及视频编排（在不说话时播放自定义视频）。通过与ChatGPT、Qwen和Gemini等大语言模型集成，实现更智能的数字人对话。

0

商用级别流式传输在线教育互动教学基于nerf模型的数字人技术实时音视频同步对话

auto ai subtitle translator开源项目 – 视频语音识别与字幕翻译工具

该项目结合了视频语音识别与字幕翻译技术，能够自动识别视频中的语音并生成字幕，同时支持多种语言的翻译功能，旨在提升视频内容的可访问性和多语言观众的体验。

0

多语言支持字幕翻译工具自动字幕生成视频语音识别

Talk开源项目 – 基于语音的自然语言对话

Talk是一个基于whisper.cpp和llama.cpp的项目，旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术，支持自然语言处理，能够实时响应用户的语音指令，并提供用户友好的界面，方便易用。

0

自然语言处理语音助手语音对话系统语音识别与生成

whisper.cpp开源项目 – 高质量的语音识别项目

OpenAI的Whisper高质量语音识别模块C/C++移植版，支持在iOS和Android上运行，提供真人级别的识别效果，完全免费，具有开源、低内存和跨平台特性，适合资源受限环境。

0

低内存语音识别开源语音识别项目移动设备语音识别跨平台语音识别

WhisperSpeech开源项目 – 开源文本转语音系统

WhisperSpeech 是一个强大且易于定制的文本转语音工具，基于 Whisper 的语音转文本技术，能够提供高质量的语音合成，并支持多种语言和口音。该项目是开源的，允许用户自由使用和修改，同时也适用于商业项目。

0

开源语音合成教育应用文本转语音工具无障碍技术

ollama-voice-mac开源项目 – Mac上的离线语音助手

ollama-voice-mac是一个在Mac上完全离线运行的语音助手，利用Mistral 7b模型进行自然语言处理，同时采用Whisper模型进行语音识别，提供用户友好的体验和多种语音指令支持。

0

用户友好的界面离线语音助手自然语言处理语音识别

audio2photoreal开源项目 – 从音频生成逼真虚拟人物形象

从音频到照片真实的体现：在对话中合成虚拟人物形象。该项目可以从多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。

0

从音频生成虚拟人物形象元宇宙应用多视图对话数据集逼真面部表情生成

lp-music-caps开源项目 – 基于LLM的伪音乐字幕生成项目

lp-music-caps是一个基于大语言模型（LLM）技术的项目，旨在生成高质量的音乐字幕，支持多种音乐风格和类型。

0

LLM技术自定义字幕生成音乐字幕生成高质量音乐描述

QuiLLMan开源项目 – 与大语言模型进行语音聊天

这个项目可以让用户与大语言模型进行自然的语音对话，结合先进的语音转录和文本到语音技术，提供流畅的交互体验。

0

Metavoice Tortoise TTSOpenAI WhisperVicuna语言模型文本到语音

语音克隆开源项目 – 提取音色，实现个性化语音合成

语音克隆项目通过提取人类的音色，将文本或其他语音转换为特定的音色，提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色，适用于多种应用场景。

0

个性化语音合成声音克隆文本转语音语音克隆

textlesslib开源项目 – 无文本口语处理库

textlesslib是一个专为无文本口语处理设计的库，集成了多种先进的AI模型，提供高效的音频特征提取，支持多种语言的处理，且开放源代码，易于扩展。

0

AI模型集成开放源代码无文本口语处理库自定义模型训练

ChatGLM2 Voice Cloning开源项目 – 与喜欢的角色进行沉浸式对话

ChatGLM2 Voice Cloning项目结合了ChatGLM2-6B模型和声音克隆技术，允许用户与自己喜爱的角色进行沉浸式对话。用户可以通过输入文本与角色互动，同时利用声音克隆技术实现个性化的语音体验，满足不同用户的需求。该项目不仅支持与任何角色进行对话，还提供了可定制的语音特征和友好的用户界面，让互动变得更加简单和有趣。

0

ChatGLM2-6B模型个性化语音体验声音克隆技术沉浸式对话

Awesome Gesture Generation开源项目 – 音频驱动的手势生成资源

这是一个收录音频驱动手势生成相关论文的资源列表，提供实用的代码示例和实现，涵盖最新的研究成果并持续更新，旨在帮助研究人员和开发者深入了解和实验手势生成技术。

0

代码示例手势生成技术研究论文音频驱动手势生成

wscribe开源项目 – 开源语音转文字工具

wscribe是一个开源的语音到文字转换工具，基于whisper的前端，提供灵活的音频处理和后处理选项，旨在提高语音转录的效率和准确性。

0

开源语音转文字工具自动化工作流程音频转录高准确率转录