DiffMoE是一个基于PyTorch的扩散模型项目,采用动态专家混合(MoE)架构,通过仅激活1倍参数即可超越3倍参数的密集模型。它在ImageNet上表现出色,FID50K分数低至2.30,Inception Score高达88.19,仅需700K训练步。项目主要用于图像生成任务,如类别条件生成和文本到图像生成。其核心创新包括批次级全局令牌池和动态容量预测器,能够根据噪声水平和样本复杂度智能分配计算资源。