Centaurus是一种将状态空间模型(SSMs)视为卷积神经网络(ConvNets)的新型网络架构,通过优化的张量收缩顺序提升训练效率。其核心创新在于将SSM块操作框架化为张量运算,并融合经典ConvNet设计理念(如分组卷积和瓶颈块),形成异构网络结构。该网络在保持参数效率的同时,在音频处理任务中展现出卓越性能,且是首个完全基于状态空间模型(不依赖LSTM/CNN/注意力机制)却达到竞争力的ASR性能的模型。
OpenAI开源的语音识别框架,支持99种语言的语音-文本转换,在低资源语种识别任务中WER降低至7.3%(比Whisper v2提升28%)。其流式处理架构实现200ms端到端延迟(RTF<0.2),通过自监督预训练机制减少对标注数据的依赖。在智能客服场景测试中,方言识别准确率提升至95%,支持实时会议纪要生成与多语种翻译。