2025年2月24日,DeepSeek正式启动开源周活动,连续五天发布了五款核心AI基础设施工具。这一举措不仅展示了DeepSeek在AI领域的技术实力,更体现了其推动开源生态发展的决心。DeepSeek团队表示,这些工具已在生产环境中经过验证,旨在为全球开发者提供高效、透明的技术解决方案。
FlashMLA:高效MLA解码内核
作为开源周的首日发布,FlashMLA是一款专为Hopper GPU优化的MLA解码内核,支持BF16和FP16格式,并采用分页KV缓存技术(块大小为64)。在H800 SXM5上,FlashMLA在内存密集型配置中实现了高达3000 GB/s的吞吐量,在计算密集型配置中则达到了580 TFLOPS的性能。这一工具特别适用于处理变长序列任务,已在DeepSeek的生产环境中得到广泛应用。
DeepEP:MoE模型训练与推理的通信库
DeepEP是DeepSeek开源的EP通信库,专为MoE模型的训练和推理设计。它支持高效的节点内和节点间通信,利用NVLink和RDMA技术实现高吞吐量和低延迟。DeepEP还支持FP8调度,并提供了灵活的GPU资源控制功能,以优化计算与通信的重叠效率。
DeepGEMM:FP8矩阵计算库
DeepGEMM是一款支持FP8格式的矩阵计算库,适用于密集矩阵和MoE矩阵的计算。在Hopper GPU上,DeepGEMM实现了超过1350 TFLOPS的性能。其核心逻辑仅约300行代码,却在大多数矩阵规模上超越了专家优化的内核。DeepGEMM的设计简洁高效,无需依赖复杂的库,非常适合开发者快速上手。
优化并行策略与数据访问
DeepSeek还开源了DualPipe和EPLB等并行策略工具,以及Fire-Flyer文件系统(3FS)。3FS是一款并行文件系统,充分利用了现代SSD和RDMA网络的带宽,在180节点集群中实现了6.6 TiB/s的聚合读取吞吐量。这些工具为AI训练和推理提供了强大的数据访问和计算优化能力。
开源精神与社区贡献
DeepSeek的开源周活动不仅是一次技术展示,更是对开源精神的践行。通过将核心工具开源,DeepSeek希望与全球开发者共同推动AI技术的进步。正如团队所言:“每一行共享的代码都将成为加速旅程的集体动力。”
DeepSeek的开源举措,不仅为AI开发者提供了宝贵的技术资源,也展示了国产科技在开源环境中的竞争力。未来,DeepSeek将继续坚持开源路线,推动AI技术的普及与创新。