汇集语音语言模型和端到端语音对话系统的论文、代码和资源,旨在为研究人员和开发者提供全面的支持和参考。
Unsupervised-TTS是由Cheng-I Jeff Lai开发的无监督语音合成系统,旨在利用无监督学习算法提高语音合成的质量和效率,同时支持多种语言,便于与现有系统集成。
ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频,通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案,适用于多种应用场景。
这是一个汇集了与GPT相关的多个开源项目的合集,提供对各个项目的简要介绍和链接,适用于研究人员和开发者寻找相关资源,并支持多种GPT相关的应用和工具。
一个综合性的资源库,为用户提供了大量关于上下文学习和提示工程的最新研究和技术。
谷歌DeepMind发布的最新多任务视觉语言模型(VLM),集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等任务。该模型提供三种不同参数规模(3B、10B、28B),支持224px和448px两种分辨率,基于开源框架开发,易于使用和扩展,通过简单提示即可切换任务,无需额外加载模型。
OSS Chat是一个创新的AI工具,旨在弥合开源软件社区与开发者之间的沟通鸿沟。它利用增强版ChatGPT的能力,整合文档、问题、博客文章和社区问答作为知识库,专为寻找高效信息和实时支持的开发者和开源爱好者量身定制。
文化NLP研究资源库:汇集文化自然语言处理领域的精选资源,涵盖研究论文、数据集、模型和应用,为跨文化语言技术研究提供参考和启发
kimi-k1.5 是月之暗面发布的多模态思考模型,具有强大的数学、代码、视觉多模态和通用能力,在短思考和长思考模式下均超越了多个 SOTA 模型。
StableVicuna是第一个通过强化学习人类反馈(RHLF)进行训练的大型开源聊天机器人,基于Meta的LLaMA模型,利用从ShareGPT收集的用户共享对话进行训练,旨在提供更自然和人性化的对话体验。