DeepGEMM是一款采用CUDA编写的FP8通用矩阵乘法库,具有全JIT编译设计,简化了运维流程并提供卓越的计算性能。它支持稠密矩阵与混合专家(MoE)矩阵乘法,为V3/R1模型训练推理提供高效算力。DeepGEMM在NVIDIA Hopper架构上表现出色,最大性能提升2.7倍,支持细粒度缩放技术,解决FP8精度损失问题,并采用两级累加技术确保结果准确性。