Scalable-Softmax (SSMax) 是一种针对Transformer模型中标准Softmax函数的改进方案,旨在解决注意力衰减问题。通过引入可学习的缩放参数,SSMax能够有效防止注意力分布在长上下文场景下变得过于平坦,从而提升模型在长序列中关键信息检索的能力。该方案可与现有Transformer架构无缝集成,仅需最小代码改动即可实现。