FlashMLA是专为Hopper架构GPU设计的高效MLA解码内核,特别针对可变长度序列服务进行了优化。它结合了FlashAttention 2&3和cutlass两个加速项目的技术,显著提升了H800 GPU的计算性能。支持BF16精度,采用块大小为64的分页kvcache,使用CUDA 12.6,在H800 SXM5上实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能。