DeepSeek-V3 / R1 推理系统是一个通过大规模跨节点专家并行(Expert Parallelism, EP)实现更高吞吐量和更低延迟的推理系统。该系统采用多机多卡的专家并行策略,通过增加 batch size 提高 GPU 矩阵乘法效率,并通过分散专家计算降低延迟。此外,系统还采用了计算通信重叠优化、负载均衡优化、双 batch 重叠策略以及针对不同阶段的负载均衡器设计,以进一步提升系统性能。