层次化语言模型

Open-Training-Moshi开源项目 – 开源Moshi模型训练复现

Open-Training-Moshi开源项目 – 开源Moshi模型训练复现

开源复现Moshi模型训练过程，包括音频编解码器Mimi及文本和音频的层次化语言模型。该项目为研究人员和开发者提供了一个完整的框架，用于训练和实现先进的语音和文本处理能力，支持实时对话和多模态学习。

实时对话系统层次化语言模型开源Moshi模型训练音频编解码器Mimi

langchain-ChatGLM开源项目 – 优化对话系统的自然语言处理项目

langchain-ChatGLM开源项目 – 优化对话系统的自然语言处理项目

langchain-ChatGLM是一个用于处理自然语言处理任务的项目，允许通过语义匹配和上下文管理来优化对话系统的表现。该项目支持将原文划分为单句进行处理，基于提问语义进行单句匹配，同时具备上下文管理功能，结合单句前后文本进行分析，并可通过chunk_size限制上下文长度。

上下文管理对话系统优化文本匹配自然语言处理

Whisper Turbo开源项目 – 跨平台GPU加速的语音识别工具

Whisper Turbo开源项目 – 跨平台GPU加速的语音识别工具

Whisper Turbo是一个跨平台的GPU加速版Whisper，能够在客户端浏览器或Electron应用里运行，提供高效的语音识别功能，便于开发者集成，支持多种音频格式的识别和实时语音处理。

Electron应用集成GPU加速语音识别实时语音处理浏览器语音转文本

Claude 2 AI官网 – 先进的语言模型

Claude 2是由Anthropic AI开发的高级语言模型，能够处理多种文本文件，如PDF和Word文档，并根据内容提供洞见。

AI生成文本摘要AI辅助文本分析学术研究支持聊天机器人

Fish Speech开源项目 – 全新的文本转语音解决方案

Fish Speech开源项目 – 全新的文本转语音解决方案

Fish Speech是一款具有高度自定义和灵活性的文本转语音(TTS)解决方案，支持Linux和Windows系统，能够满足多种应用需求。

文本转语音解决方案聊天机器人语音功能语音助手集成跨平台TTS

AI Voice Chat开源项目 – 语音交互AI助手

AI Voice Chat开源项目 – 语音交互AI助手

AI Voice Chat是一个基于React的语音交互应用，结合了Whisper Large v3、openchat 3.5 AWQ和XTTS v2技术，支持低延迟的语音对语音交互。项目在单个RTX 3090 GPU上运行，显存占用33G，比ChatGPT语音演示视频的延迟减少了一半以上。它能够高效地进行语音识别和合成，支持多种语言和方言，适用于实时语音聊天、客服机器人、智能家居设备、教育平台等多种场景。

低延迟语音交互多语言支持客服机器人集成教育培训

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3