大型语言扩散模型采用扩散技术,通过逐渐掩码输入部分文本并加噪,模型学习一次性预测被掩码内容以恢复原始文本。该技术不同于传统的逐步(自回归)方法,能够同时预测多个标记,解决传统语言模型无法逆向生成内容的问题,并在多个测试中表现优异,超过Llama-2 7B,与Llama-3 8B相当。