SpeechGPT是一个多模态大语言模型,具备跨模态对话能力,能够感知和生成语音与文本内容。它通过将连续的语音信号离散化,实现了语音与文本模态的统一处理。该项目还包括SpeechGPT-Gen,专注于链式信息语音生成。团队还开发了SpeechTokenizer等工具,进一步推动了语音语言模型的发展。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型