Muon 是一种专门针对神经网络隐藏层设计的优化算法,旨在提高训练效率和降低计算成本。它通过集中调整隐藏层中的参数,显著提升了整体训练性能。Muon 已成功应用于多个项目,如 NanoGPT 和 CIFAR-10 的快速训练,证明了其在提高训练速度和降低计算成本方面的有效性。