SpeechGPT是一个多模态大语言模型,具备跨模态对话能力,能够感知和生成语音与文本内容。它通过将连续的语音信号离散化,实现了语音与文本模态的统一处理。该项目还包括SpeechGPT-Gen,专注于链式信息语音生成。团队还开发了SpeechTokenizer等工具,进一步推动了语音语言模型的发展。