LLaDA是一个大型语言扩散模型,目前模型大小为8B BF16。尽管在测试中表现一般,但其运行速度非常快,显示出巨大的发展潜力。该项目可在Hugging Face平台上在线体验,适用于多种自然语言处理任务。
大型语言扩散模型采用扩散技术,通过逐渐掩码输入部分文本并加噪,模型学习一次性预测被掩码内容以恢复原始文本。该技术不同于传统的逐步(自回归)方法,能够同时预测多个标记,解决传统语言模型无法逆向生成内容的问题,并在多个测试中表现优异,超过Llama-2 7B,与Llama-3 8B相当。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型