标签:训练稳定性

探秘Transformer模型优化:PLATON算法的突破与启示

本文深入探讨了在ICML2022上提出的PLATON算法,该算法通过重要性估计的置信上限(UCB)来捕捉Transformer模型中权重重要性得分的不确定性,从而有效减少模型大...