Multi-token Prediction 是由 Meta AI 提出的一种新型训练方法,旨在提高大型语言模型(LLM)的效率和性能,特别是在生成任务中表现突出。该方法通过在每个训练语料的位置同时预测多个未来 token,从而提高数据效率和性能,而不会增加训练时间。该方法特别适用于较大模型和多次训练周期,并且通过自投机解码技术,推理速度可能提升至 3 倍,适合实时应用。