开源复现Moshi模型训练过程,包括音频编解码器Mimi及文本和音频的层次化语言模型。该项目为研究人员和开发者提供了一个完整的框架,用于训练和实现先进的语音和文本处理能力,支持实时对话和多模态学习。
langchain-ChatGLM是一个用于处理自然语言处理任务的项目,允许通过语义匹配和上下文管理来优化对话系统的表现。该项目支持将原文划分为单句进行处理,基于提问语义进行单句匹配,同时具备上下文管理功能,结合单句前后文本进行分析,并可通过chunk_size限制上下文长度。
Whisper Turbo是一个跨平台的GPU加速版Whisper,能够在客户端浏览器或Electron应用里运行,提供高效的语音识别功能,便于开发者集成,支持多种音频格式的识别和实时语音处理。
Claude 2是由Anthropic AI开发的高级语言模型,能够处理多种文本文件,如PDF和Word文档,并根据内容提供洞见。
Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案,支持Linux和Windows系统,能够满足多种应用需求。
AI Voice Chat是一个基于React的语音交互应用,结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术,支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行,显存占用33G,比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成,支持多种语言和方言,适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。