查找专家混合模型 (Mixture of Lookup Experts, MoLE)论文 – 优化MoE推理效率的查表技术
MoLE是一种针对混合专家模型(MoE)的优化架构,通过查表技术显著提升推理效率并减少显存使用。其核心创新是在推理前将专家网络重新参数化为查找表(LUTs),根据输入ID直接检索预计算结果,同时支持将专家卸载到存储设备。实验表明,在相同计算资源下,MoLE的推理速度可与密集模型媲美,且比传统MoE更快,同时保持模型性能不变。该技术特别适合大型语言模型等需要高参数规模和低延迟的场景。