这篇论文通过偏微分方程(PDE)的视角深入分析随机梯度下降(SGD)在机器学习中的动力学行为,重点研究训练过程中的漂移和扩散机制,以及参数分布的渐近收敛性。研究揭示了SGD在初始阶段的漂移机制和后续的扩散机制,并量化了参数集中和逃逸的时间尺度,使用对偶和熵方法研究了渐近收敛性。论文不仅关注SGD的实际表现,还试图从理论上解释其行为,特别适用于非凸损失函数的优化问题。