Audioflare是一个基于Cloudflare AI Workers的全能音频平台,能够转录、分析、摘要和翻译任何音频文件。
Kesha v3.0 是一个实验项目,结合了 Silero 的文本转语音、Vosk 的语音转文本、Picovoice Porcupine 的唤醒词检测和 ChatGPT 的智能对话功能,旨在提供自然流畅的语音交互体验。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音,并支持API调用。
一个离线运行的本地语音识别转文字服务,能够输出json、srt字幕及纯文字格式,支持多种语言和自定义词汇,提供高准确率的语音识别功能。
非常强大的GPT网页客户端,开源、现代化设计的 ChatGPT/LLMs 聊天应用与开发框架,支持语音合成、多模态、可扩展的插件系统。
WhisperX是一个强制时间对齐的时间戳精确版Whisper语音识别工具,能够高效地进行多语言的语音识别,并生成带有精确时间戳的文本转录,适用于各种音频处理场景。
sherpa-ncnn 是一个使用下一代 Kaldi 和 ncnn 构建的实时语音识别系统,支持多种语言和方言,具备低延迟性能,适合各种实时应用场景。它提供灵活的模型部署选项,并兼容 Kaldi 的最新技术,能够满足开发者的多样化需求。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。
OpenVoice 是一个由 MyShell 与 MIT 联合开发的开源文本转语音模型,支持多语言语音克隆与合成。其最新版本 OpenVoice V2 仅需一小段人声即可克隆语音,并提供细粒度控制功能,适用于语音助手、游戏角色语音、多语言音频内容生成等多种场景。
AudioGradio是一个集成了Audiocraft MusicGen和AudioGen的Web界面,用户可以通过简单的操作生成高质量的音频内容,体验音乐创作的乐趣。
该课程提供了基于Transformer架构的音频处理技术,包含丰富的音频数据集和预训练模型,支持多种音频任务如分类、生成和转录,并结合实用示例和代码演示,帮助学习者掌握音频处理的最新技术。
SwiftWhisper是基于Whisper.cpp二次封装后,让Swift方便调用的库,基于它可以方便的开发语音识别转文字类的Whisper应用。
Emotivoice是一个支持情感提示控制的中英双语语音合成TTS引擎,提供多达2000种语音选项,旨在通过情感分析与合成技术提升语音交互体验。
一个名为 insanely-fast-whisper 的新实现,使用 OpenAI's Whisper Large v3,适用于 Mac 或 Nvidia GPU,结合 Whisper + Pyannote 库加速音频转录和语音分段。
Meta 新推出的实时语音翻译模型 Seamless,能保持原声的表情和风格。该模型具备强大的语音生成和翻译能力,超越了现有的技术,提供自然流畅的多语言交流体验。
一个用于文本到语音生成的Web用户界面,支持多种语音合成模型,用户可以轻松创建高质量的语音合成音频。
metahuman-stream 是一个基于ernerf模型的流式数字人项目,实现音视频同步对话,基本可以达到商用效果。该项目支持多种数字人模型(如ernerf、musetalk、wav2lip),并具备声音克隆、数字人说话被打断处理、全身视频拼接等功能。此外,它还支持rtmp和webrtc推流,以及视频编排(在不说话时播放自定义视频)。通过与ChatGPT、Qwen和Gemini等大语言模型集成,实现更智能的数字人对话。
该项目结合了视频语音识别与字幕翻译技术,能够自动识别视频中的语音并生成字幕,同时支持多种语言的翻译功能,旨在提升视频内容的可访问性和多语言观众的体验。
Talk是一个基于whisper.cpp和llama.cpp的项目,旨在实现与计算机的直接语音对话。它整合了先进的语音识别和生成技术,支持自然语言处理,能够实时响应用户的语音指令,并提供用户友好的界面,方便易用。
OpenAI的Whisper高质量语音识别模块C/C++移植版,支持在iOS和Android上运行,提供真人级别的识别效果,完全免费,具有开源、低内存和跨平台特性,适合资源受限环境。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
ollama-voice-mac是一个在Mac上完全离线运行的语音助手,利用Mistral 7b模型进行自然语言处理,同时采用Whisper模型进行语音识别,提供用户友好的体验和多种语音指令支持。
从音频到照片真实的体现:在对话中合成虚拟人物形象。该项目可以从多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。
lp-music-caps是一个基于大语言模型(LLM)技术的项目,旨在生成高质量的音乐字幕,支持多种音乐风格和类型。
这个项目可以让用户与大语言模型进行自然的语音对话,结合先进的语音转录和文本到语音技术,提供流畅的交互体验。
语音克隆项目通过提取人类的音色,将文本或其他语音转换为特定的音色,提供个性化的语音合成解决方案。该项目支持从文本生成语音以及将已有的语音样本转化为克隆音色,适用于多种应用场景。
textlesslib是一个专为无文本口语处理设计的库,集成了多种先进的AI模型,提供高效的音频特征提取,支持多种语言的处理,且开放源代码,易于扩展。
ChatGLM2 Voice Cloning项目结合了ChatGLM2-6B模型和声音克隆技术,允许用户与自己喜爱的角色进行沉浸式对话。用户可以通过输入文本与角色互动,同时利用声音克隆技术实现个性化的语音体验,满足不同用户的需求。该项目不仅支持与任何角色进行对话,还提供了可定制的语音特征和友好的用户界面,让互动变得更加简单和有趣。
这是一个收录音频驱动手势生成相关论文的资源列表,提供实用的代码示例和实现,涵盖最新的研究成果并持续更新,旨在帮助研究人员和开发者深入了解和实验手势生成技术。
wscribe是一个开源的语音到文字转换工具,基于whisper的前端,提供灵活的音频处理和后处理选项,旨在提高语音转录的效率和准确性。