GLaM官网 – 谷歌高效稀疏大语言模型

GLaM（通用语言模型）是由谷歌开发的稀疏激活大型语言模型，采用混合专家架构（MoE），总参数达1.2万亿但每次推理仅激活970亿参数。在29个NLP基准测试中超越GPT-3，尤其擅长零样本/单样本学习，训练能耗仅为GPT-3的1/3。其1.6万亿标记的训练数据来自网页、书籍和维基百科，使用TPUv4进行高效训练，但存在17个测试集数据污染事件可能影响可靠性。

GLaM的特点:

1. 1.2万亿参数混合专家架构（64专家/层×32层）
2. 推理时仅激活8%参数（970亿），计算效率高
3. 零样本/单样本学习在80%-90%任务中优于GPT-3
4. 训练能耗比GPT-3低67%，推理计算量减半
5. 支持GSPMD编译器跨设备扩展
6. 涵盖语言生成/理解/问答/推理等29类NLP任务

GLaM的功能:

1. 数字助理的对话生成与语义理解
2. 搜索引擎的开放领域问答优化
3. 大规模文本生成与自动摘要
4. 低能耗场景的NLP模型部署
5. 多专家系统联合决策应用
6. 学术研究的基准模型对比

相关导航

Expert-Specialized Fine-Tuning (ESFT) – 高效微调混合专家模型

Expert-Specialized Fine-Tuning (ESFT) 是一种针对具有混合专家（MoE）架构的大型语言模型（LLMs）的参数高效微调（PEFT）方法。该方法通过微调与下游任务最相关的专家，显著提高了微调效率和性能。ESFT 不仅能够匹配甚至超越全参数微调的效果，还深入分析了MoE架构对专家专门化微调的影响，使得更细粒度的专家选择成为可能，从而在相关专家组合的选择上更具优势。

Qwen2.5-Max开源项目 – 大型AI模型，表现强劲

Qwen2.5-Max是一个采用混合专家（MoE）架构的大规模AI模型。经过广泛的预训练和微调，它在Arena Hard、LiveBench和GPQA-Diamond等基准测试中表现出色，能够与DeepSeek V3等模型进行竞争。

HiDream-I1开源项目 – 开源高质量图像生成模型

HiDream-I1是HiDream.ai团队推出的开源图像生成基础模型，拥有17亿参数，采用MIT许可证。该模型在多项基准测试中（DPG-Bench/GenEval/HPSv2.1）超越SDXL、DALL-E 3等主流模型，支持秒级高质量图像生成。提供完整版、蒸馏版和极速版三种变体，适用于不同场景需求。技术层面融合扩散模型与混合专家架构（MoE），集成多模态文本编码器，在语义理解、细节渲染和风格多样性方面表现突出。

mlx-examples开源项目 – 在Mac上运行语言模型的示例项目

这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型，支持在Apple M2 Ultra上进行高效的模型训练和推理，提供简化的模型权重下载和加载流程，同时兼容Python环境。

Mixtral-8x7B-Instruct-v0.1模型 – 高性能指令跟随模型

Mixtral-8x7B-Instruct-v0.1 是由 Mistral AI 开发的开源指令跟随模型，基于 Mixtral-8x7B-v0.1 架构，采用混合专家（MoE）设计，包含 8 个 7B 参数的专家，总参数量约为 46.7B。该模型支持 32k 令牌的上下文长度，能够处理英语、法语、意大利语、德语和西班牙语。在 MT-Bench 基准测试中得分 8.3，表现出色，特别适合需要指令跟随的应用场景。模型通过 Hugging Face transformers 库加载，支持 GPU 加速，生成文本的能力强大且灵活。