FlashMLA 是 DeepSeek 开源的一个项目,已合并到 vLLM 中,旨在提高 MLA 模型的推理性能。该项目在吞吐性能上提升了 5%-10%,但会增加 1% 的延迟。目前仅支持 MLA 模型,并且仅适用于 Hopper 架构的显卡(如 H100,H200,H800)。