Multi-token Prediction for Large Language Models官网 – 提升大型语言模型效率
Multi-token Prediction for Large Language Models 是 Meta 提出的一种新型训练方法,旨在提升大型语言模型的训练效率和性能。该方法允许模型在训练语料的每个位置同时预测接下来的多个 token,每个 token 独立计算交叉熵损失。通过调整前向和后向传播的顺序,该方法显著减少了 GPU 内存占用,且不影响模型运行时间。该方法在编码和自然语言模型上取得了显著的性能提升,推理速度大幅提高,适用于实时应用。