Streaming DiLoCo 是一种用于分布式训练大语言模型(LLMs)的方法,旨在减少通信带宽和延迟。通过部分参数同步、通信与计算重叠以及梯度量化到4位精度,该方法在保持模型质量的同时显著降低了通信需求,特别适用于带宽有限的环境。