DeepSeek-R1:千亿级模型的本地化运行
DeepSeek-R1作为一款671B参数的MoE(混合专家)架构模型,因其对显存的高要求,一度被认为难以在本地小规模硬件上运行。然而,清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目,成功实现了在24G显存环境下运行DeepSeek-R1的满血版。这一突破不仅将预处理速度提升至286 tokens/s,推理生成速度也达到了14 tokens/s,为千亿级模型的“家庭化”铺平了道路。
KTransformers项目通过“专家卸载”技术,将显存需求降至十分之一,使得236B的大模型能在消费级显卡上流畅运行。随着DeepSeek-R1的发布,社区需求激增,KTransformers在GitHub上获得了广泛关注和讨论。
FlashMLA:高效推理的新范式
在2024年的“开源周”中,DeepSeek发布了FlashMLA项目,这是一个针对Hopper GPU优化的高效MLA(多头潜注意力)解码内核。FlashMLA不仅适用于长序列处理和实时应用,还能显著降低内存和计算需求,便于在边缘设备上部署。
FlashMLA的高计算效率(580 TFLOPS)和内存带宽优化(3000 GB/s),使得同样的GPU资源可以处理更多请求,从而降低单位推理成本。这一开源项目的发布,有望让LLaMA、Mistral、Falcon等开源大语言模型运行得更高效。
DeepEP与DeepGEMM:优化MoE模型的全栈支持
DeepSeek在开源周中还发布了DeepEP和DeepGEMM项目。DeepEP是首个面向MoE模型的开源EP通信库,支持高效优化的All-to-All通信,适用于训练和推理的预填充与解码阶段。DeepGEMM则是一个专注于FP8高效通用矩阵乘法的库,支持普通及MoE分组的矩阵计算需求,显著提升了计算效率。
DualPipe与3FS:分布式训练与存储的优化
DualPipe和3FS是DeepSeek开源周的另外两个重要项目。DualPipe通过双向流水线并行算法,优化了分布式训练的效率,减少了流水线“气泡”。3FS则是一个高性能的分布式文件系统,旨在应对AI训练和推理工作负载的挑战,简化了分布式应用程序的开发。
技术普惠:DeepSeek的开放宣言
DeepSeek通过开源周展示了其在AI底层技术上的突破性实力,不仅以代码量为单位实现效率跃升,更通过真实场景测试数据证明了国产技术重构全球AI基础设施的潜力。正如DeepSeek官方所言:“我们相信,AI技术的发展速度应该由全球开发者共同决定。”这场开源周不仅是一次技术展示,更是中国AI企业向世界发出的开放宣言。
结语
DeepSeek及其开源项目通过技术创新,推动了AI普惠化的进程。从KTransformers到FlashMLA,再到DeepEP和DeepGEMM,DeepSeek展现了中国AI企业在全球市场中的技术实力和开放精神。未来,随着更多开源项目的发布,AI技术将更加普及,惠及全球开发者与用户。