Microsoft Text-to-Speech Downloader 是一个服务,允许用户使用 Microsoft™ 语音合成技术将文本合成为自然听感的音频。用户只需输入文本,选择所需的语音和语言设置,然后点击下载按钮,即可即时生成音频输出。该工具提供了一种简单的方法来合成音频,用户可以轻松播放或下载生成的音频。
ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频,通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案,适用于多种应用场景。
ChatGLM-6B是清华大学开发的一个开源双语对话语言模型,基于General Language Model (GLM)架构,具有62亿参数。它支持中英双语对话,并具备图像理解的多模态功能。模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,旨在提供高质量的对话生成和自然语言处理能力。结合模型量化技术,可在消费级显卡上本地部署(INT4量化级别下最低只需6GB显存),并针对中文问答和对话进行了优化。
NLP-Knowledge-Graph项目致力于将自然语言处理、知识图谱和对话系统三大技术进行深度研究与应用。该项目不仅支持构建和优化对话系统,还提供多种数据处理与分析工具,具备强大的可扩展性,允许用户自定义模块,并支持多语言处理,满足不同领域的需求。
WhisperSpeech 是一个强大且易于定制的文本转语音工具,基于 Whisper 的语音转文本技术,能够提供高质量的语音合成,并支持多种语言和口音。该项目是开源的,允许用户自由使用和修改,同时也适用于商业项目。
汇集语音语言模型和端到端语音对话系统的论文、代码和资源,旨在为研究人员和开发者提供全面的支持和参考。
ArCHer项目通过层次多轮强化学习的方法,旨在训练语言模型代理,以提高对话系统的交互质量。这一方法允许模型在多个回合的对话中进行更有效的学习,确保其在对话中的表现更加自然和人性化。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
收录各种各样的指令数据集,用于训练 ChatLLM 模型,支持多种自然语言处理任务。
本地语音助手:无需联网即可在个人电脑上运行的语音助手,集成了语音识别和语音合成功能,打造类似电影《钢铁侠》中的 Jarvis 或 Friday 的离线语音助理体验
Continual是现代数据栈的领先操作性AI平台,能够构建不断改进的预测模型,无需复杂的工程。它为产品和工程团队提供了在SaaS应用中构建对话体验和AI自动化的能力,能够连接私有数据和API,并允许在几分钟内轻松部署。
OpenChat是一个基于LLaMA架构的开源大语言模型,通过6K GPT-4对话数据进行微调,旨在在推理效率和表现力上达到与ChatGPT相当的水平。它利用自然语言对话数据和强化学习方法,在混杂质量数据下进行训练,克服了labels标注难题,是开源领域内表现最出色的模型之一。
StableTTS是一个轻量级的文本到语音(TTS)模型,专为汉语和英语的语音生成服务而设计。该模型仅有10M的参数,适合在资源有限的环境中使用。它基于流匹配和DiT技术,是下一代TTS模型,灵感来源于Stable Diffusion 3,能够高效地产生自然流畅的语音。
SteosVoice(前称CyberVoice)是一个先进的语音合成平台,利用人工智能创造超现实、高质量的声音。它为内容创作者提供广泛的功能和能力,包括用于视频、游戏和修改的文本转语音(TTS)服务。作为人工智能的声音工具,SteosVoice致力于提供全面的语音合成解决方案。
LAVIS是一个一站式的语言-视觉智能库,支持多种语言-视觉任务,集成多种预训练模型,提供简单易用的API,以及自定义模型的训练和评估,具备高效的推理速度和性能。
ElevenLabs是一个提供高质量AI语音生成服务的平台,用户可以免费创建高级AI语音,并在几分钟内生成文本到语音的配音。
ConvAI bot是一个专为NIPS 2017智能会话挑战赛而开发的基于技能的对话代理,旨在实现自然流畅的对话,能够适应不同的对话场景并学习用户的偏好。
AI Music Generator (AMG) 是一个由Meta的AudioCraft提供支持的平台,用户只需用文字描述即可生成音频片段和音乐。它可以创建最长30秒的音频片段,并提供稳定的音频扩散功能。生成的内容可以下载。