该项目提出了一种名为多标记预测的新型大型语言模型(LLM)训练方法。与传统的下一标记预测不同,该方法在训练语料的每个位置同时预测多个未来标记,每个标记的损失独立计算。通过优化前向和后向传播的顺序,该方法显著减少了GPU内存使用,且不增加训练时间。实验表明,该方法在编码和自然语言任务上显著提高了性能,推理速度大幅提升,特别适合实时应用。