GLM-4-Voice 是由智谱 AI 开发的端到端中英语音对话模型,能够实时理解和生成中英文语音,并具备修改语音情感、语调、语速和方言等属性的功能。该模型支持情感共鸣、打断功能、多语言多方言,适用于灵活对话互动。
Play致力于构建生成式AI语音,旨在为未来的对话提供更自然、更人性化的语音体验。通过先进的技术,我们希望使人与机器之间的交流更加流畅和真实。
LightGPT是由AWS贡献者开发的语言模型,基于GPT-J 6B,经过OIG-small-chip2指令数据集的微调,旨在生成符合特定指令的文本。该模型支持在Amazon SageMaker上部署,并提供了示例代码。
VideoChat是一个实时语音交互的数字人平台,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。用户可以自定义数字人的形象和音色,支持音色克隆,实现个性化的交流体验。此外,该平台的首包延迟可以低至3秒,确保流畅的互动。
Text Reader是一个先进的AI工具,能够快速将书面文本转换为生动的音频。它适用于创建各种音频内容,如播客、视频配音、个人问候和IVR电话系统。通过使用高保真TTS WaveNet声音,Text Reader自动化语音录制过程,为传统配音方法提供了一种高效且经济的替代方案。
Sonantic是一个前沿的平台,通过技术为口语注入生命,专为创作者、游戏开发者和电影制作人设计,提供将文本转化为富有表现力的语音表演的工具,模糊了合成声音与人声之间的界限。
Pulsedesk是一个利用ChatGPT技术的智能客户支持平台,旨在帮助企业自动化客户问答,减少重复性工作。无论是常见问题还是复杂查询,Pulsedesk都能提供友好且实用的响应,提升客户体验。
Speechllect是一个基于AI的解决方案,提供实时的语音转文本和文本转语音功能,利用SenseTheory数学理论分析用户发音的每个单词的意义,从而实现准确且具有上下文意义的转换。
a1gpt是一个基于C++的GPT-2推理引擎,旨在提供高效的文本生成能力,支持多种输入格式并具备良好的可扩展性,使其便于集成到各种项目中。同时,a1gpt在内存管理方面进行了优化,以提升性能和效率。
Chaticket是一个基于AI的聊天机器人,旨在通过自动化客服流程来提升客户服务效率。用户可以自定义聊天机器人的外观和界面,并通过相关数据进行训练,以便其能够在网站或平台上提供24/7的客户支持。
ChatGLM2 Voice Cloning项目结合了ChatGLM2-6B模型和声音克隆技术,允许用户与自己喜爱的角色进行沉浸式对话。用户可以通过输入文本与角色互动,同时利用声音克隆技术实现个性化的语音体验,满足不同用户的需求。该项目不仅支持与任何角色进行对话,还提供了可定制的语音特征和友好的用户界面,让互动变得更加简单和有趣。
这个开源项目的目的是在 Node.js 中寻找一个npm包,可以将语音转换为文本。
SafyrusAI是一个多功能聊天机器人,利用先进的AI模型提供革命性的聊天体验,支持多模态交互。
LightOn是一个即用型AI平台,利用大型语言模型的强大能力,帮助企业提升生产力。
基于Azure AI Search和OpenAI实现的语音RAG示例应用。支持语音界面进行知识库问答,集成了Azure OpenAI的GPT-4实时语音API,可实现语音输入、知识检索、语音输出和引用来源等功能。特别适合需要语音交互的AI应用场景。