一个超快速的语音识别工具,基于OpenAI的Whisper Large v3模型,能把长达5小时的音频在不到2分钟内转写成文字。
Diart是一个优化方案的代码实践,构建在pyannote-audio模型之上,旨在实时识别不同的说话人,特别适用于实时音频流(如来自麦克风)的场景。
AigcPanel是一个简单易用的一站式AI数字人系统,支持视频合成、语音合成与克隆,以及本地模型的一键管理和启动。它能够自动适配口型,实现画面与声音的完美同步,并提供丰富的声音参数调节功能。AigcPanel还支持多语言界面切换,并集成了多种主流模型,如MuseTalk、CosyVoice等,扩展了其功能和应用场景。
phidata是一个基于GPT-4o实现的LLM OS项目,旨在通过大语言模型协调和优化资源,以解决各种问题。该项目不仅具备强大的文本处理能力,还能够进行图像、视频和音乐的生成与处理,并具备深度思考和自我完善的能力,适用于多个领域。
Youtube-Whisper是一个Gradio应用,通过音频提取和OpenAI的Whisper模型,能够高效转写YouTube视频内容,帮助用户快速生成字幕或记录视频信息。
一个有趣的AI项目,可以通过短时间的音频源生成与原声音相似的音频,支持文本输入,基本可以做到以假乱真。
Midi Music Generator是一款音乐创作助手,能够根据用户的指令生成MIDI格式的音乐,适合音乐爱好者和制作人使用,具有易于操作和快速生成音乐的特点。
UnIVAL是一个统一模型,旨在处理图像、视频、音频和文本等多模态任务。它通过任务平衡和多模态课程学习进行有效预训练,展现出在图像和视频文本任务中的优越性能。该模型还支持通过多模态任务训练的权重插值,展示了不同任务之间的协同作用,从而提升整体性能。
Seed-TTS能生成与我们说话几乎没有区别的语音,非常逼真。支持英文、中文等。能够处理叙述性、情感表达、描述性等多种文本,能根据不同的情感和语境生成相应的语音!
基于ChatTTS的语音合成工具,支持音色抽卡、长音频生成和分角色朗读,简单易用,无需复杂安装。
VideoChat是一个实时语音交互的数字人平台,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。用户可以自定义数字人的形象和音色,支持音色克隆,实现个性化的交流体验。此外,该平台的首包延迟可以低至3秒,确保流畅的互动。
UVR5-UI 是一款功能强大的人声伴奏分离 AI 工具,提供在线简洁易用的操作界面,支持选择不同的 AI 模型以及输出格式和质量,并且能够进行批量处理,旨在满足用户的多样化需求。
CyberWaifu 是一个结合大型语言模型(LLM)与文本转语音(TTS)技术的聊天机器人,能够在 QQ 平台上与用户进行自然流畅的对话,支持表情包和QQ表情,并具备联网搜索功能,提供实时信息获取。
ModelScope魔搭开源的ClearerVoice-Studio项目,提供语音增强、语音分离、目标说话人提取等功能,旨在提升语音处理的质量和效率。
GPT-SoVITS 是一个适用于中文的语音克隆项目,能够通过短时间的语音数据训练出高质量的文本到语音(TTS)模型。仅需1分钟的语音数据即可进行有效的模型微调,支持多语言推理,并提供易于使用的Web界面,适合初学者创建和管理训练数据集。
epub2tts是一个将epub或文本文件转换成有声读物的工具,利用TTS(文本到语音)技术,支持生成mp3或m4b格式的音频文件,集成了OpenAI TTS,能够通过API密钥计算费用,平均费用约为$7。
ChatTTS音色评分与打标助手:基于ERes2NetV2模型的音色稳定性评估工具,提供2600个音色的性别、年龄和特征分类,支持在线试听与下载使用,适用于语音合成与音色选择
GPT Assistant 是一个功能强大的安卓客户端,支持用户通过语音、文字和图像与 ChatGPT 进行互动,提供便捷的聊天体验。
将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中,只需一个提示,即可完成所有需求
sherpa-onnx是一个功能强大的框架,支持语音转文字、文字转语音和说话人识别等多种功能。它设计为轻量级,能够在低功耗设备上高效运行,且遵循MIT协议,便于开发者使用和集成。
whisper-cpp-python是whisper.cpp的Python绑定,提供高效的语音识别功能,支持多种音频格式,具有简单易用的API和多线程处理能力。
ChatTTS是专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,提供自然流畅的语音合成和多说话人的支持。
音频领域的大型语言模型集合,专注于音频处理、理解和生成,为音频语言模型提供丰富的资源和工具
Neural Speech Synthesis是由Xu Tan和Hung-yi Lee在2022年Interspeech教程中介绍的一种先进的语音合成技术,利用深度学习算法生成自然流畅的语音,支持多种风格和情感,适用于多种应用场景。
libsio是一个用于语音输入(STT)和输出(TTS)的运行时库,支持高效的语音识别和自然流畅的语音合成,具有良好的跨平台兼容性,易于集成到各种应用程序中。
一个快速且高效的语音转文字(STT)模型,支持多语言自动识别和翻译功能。
OuteTTS是一个实验性的文本到语音模型,采用纯语言建模方法生成语音,致力于提升语音合成的自然性和可控性。
SEPIA 服务器支持通过WebSocket连接进行开源语音识别,易于自定义与扩展,兼容多种语音识别引擎。
noScribe是一个结合了OpenAI Whisper和pyannote技术的语音转录及说话人识别界面,旨在提供高效、用户友好的音频处理体验,支持多种音频格式的输入,能够快速准确地转录语音并识别说话人。
open-tts-tracker是一个专注于收集和比较各类开源文本转语音(TTS)项目的平台,旨在为用户提供最新的TTS模型信息和性能比较,帮助用户选择合适的TTS工具。该项目支持多种语言的文本转语音,拥有用户友好的界面,并且持续更新项目列表,确保信息的时效性。