标签:分页KV缓存

FlashMLA:开源AI优化新标杆,Hopper GPU性能革命

DeepSeek在2025年开源周期间发布的FlashMLA,是一款专为Hopper GPU优化的高效MLA解码内核,支持BF16和分页KV缓存,显著提升AI模型的训练和推理性能,适用于医...