DeepSeek开源周：AI基础设施的创新与共享

0 0

2025年2月24日，DeepSeek正式启动开源周活动，连续五天发布了五款核心AI基础设施工具。这一举措不仅展示了DeepSeek在AI领域的技术实力，更体现了其推动开源生态发展的决心。DeepSeek团队表示，这些工具已在生产环境中经过验证，旨在为全球开发者提供高效、透明的技术解决方案。

FlashMLA：高效MLA解码内核

作为开源周的首日发布，FlashMLA是一款专为Hopper GPU优化的MLA解码内核，支持BF16和FP16格式，并采用分页KV缓存技术（块大小为64）。在H800 SXM5上，FlashMLA在内存密集型配置中实现了高达3000 GB/s的吞吐量，在计算密集型配置中则达到了580 TFLOPS的性能。这一工具特别适用于处理变长序列任务，已在DeepSeek的生产环境中得到广泛应用。

DeepSeek开源周：AI基础设施的创新与共享

DeepEP：MoE模型训练与推理的通信库

DeepEP是DeepSeek开源的EP通信库，专为MoE模型的训练和推理设计。它支持高效的节点内和节点间通信，利用NVLink和RDMA技术实现高吞吐量和低延迟。DeepEP还支持FP8调度，并提供了灵活的GPU资源控制功能，以优化计算与通信的重叠效率。

DeepSeek开源周：AI基础设施的创新与共享

DeepGEMM：FP8矩阵计算库

DeepGEMM是一款支持FP8格式的矩阵计算库，适用于密集矩阵和MoE矩阵的计算。在Hopper GPU上，DeepGEMM实现了超过1350 TFLOPS的性能。其核心逻辑仅约300行代码，却在大多数矩阵规模上超越了专家优化的内核。DeepGEMM的设计简洁高效，无需依赖复杂的库，非常适合开发者快速上手。