FlashMLA是一个为Hopper GPU优化的高效解码内核,支持BF16和FP16数据类型,性能高达3000 GB/s(内存绑定)和580 TFLOPS(计算绑定)在H800 SXM5上,适合变长序列服务。