Stagformer论文 – 提升Transformer解码速度的新架构
Stagformer 是一种新的 Transformer 架构,通过时间错开实现解码过程的并行化,旨在解决传统 Transformer 解码过程中固有的顺序性问题。传统方法需要等待一个 token 的嵌入通过所有层后才能生成下一个 token,而 Stagformer 通过时间错开执行,允许模型深度方向的并行处理,从而减少延迟。研究表明,Stagformer 在保持质量不变的情况下,可实现高达 33% 的解码加速,特别适合实时 AI 应用。