Centaurus开源 – 高效音频处理神经网络
Centaurus是一种由广义状态空间模型(SSM)块组成的新型神经网络,其设计灵感来源于卷积神经网络(CNN)。通过将SSM操作视为训练期间的张量收缩,并优化张量收缩顺序,Centaurus显著提高了训练效率。它在网络大小、性能、内存和计算效率之间取得了平衡,尤其在音频处理任务中表现优异,包括关键词识别、语音去噪和自动语音识别(ASR)。Centaurus是首个完全基于状态空间的ASR网络,无需依赖非线性递归(如LSTMs)、显式卷积(CNNs)或注意力机制,仍能实现竞争性能。