GLaM(通用语言模型)是由谷歌开发的稀疏激活大型语言模型,采用混合专家架构(MoE),总参数达1.2万亿但每次推理仅激活970亿参数。在29个NLP基准测试中超越GPT-3,尤其擅长零样本/单样本学习,训练能耗仅为GPT-3的1/3。其1.6万亿标记的训练数据来自网页、书籍和维基百科,使用TPUv4进行高效训练,但存在17个测试集数据污染事件可能影响可靠性。