标签:熵最大化

探索 Grokking 现象:从数据库设计到模型泛化的奥秘

本文深入探讨了 Grokking 现象,即模型在长时间训练后突然从过度拟合转变为良好泛化的过程。通过热力学和随机梯度朗之万动力学的概念,文章将 Grokking 解释...