标签:FP8

DeepEP开源:推动MoE模型训练与推理的高性能通信革命

DeepSeek宣布开源DeepEP,这是一款专为MoE模型训练和推理优化的高性能通信库。DeepEP支持FP8低精度计算,并针对NVLink和RDMA场景进行深度优化,显著提升通信...

DeepEP与NVLink:推动MoE模型高效通信的关键技术

DeepSeek宣布开放DeepEP,这是一款专为MoE模型设计的高性能通信库,支持FP8低精度计算,并针对NVLink和RDMA进行了深度优化。本文将探讨DeepEP如何通过高效通...

DeepEP:MoE模型训练与推理的Expert Parallelism通信基础

DeepSeek宣布开源DeepEP,这是一款专为MoE模型训练和推理设计的Expert Parallelism通信库。DeepEP支持包括FP8在内的低精度计算,并针对NVLink到RDMA的非对称...

DeepEP:高性能通信库助力MoE模型高效训练与推理

DeepSeek宣布开放DeepEP,这是一款专为MoE模型设计的高性能通信库。DeepEP通过优化通信协议,支持低精度计算如FP8,并针对NVLink和RDMA场景进行深度优化,显...

从FP8到INT4:无缝量化技术在大模型推理中的革命性突破

本文深入探讨了从FP8到INT4的无缝量化技术在大模型推理中的应用,分析了其在提升计算效率、降低内存占用方面的显著优势。文章详细介绍了量化技术的核心原理、...

DeepGEMM:AI算力提升的革命性突破

DeepSeek推出的开源项目DeepGEMM,通过极简代码和高效算法,打破了AI算力依赖硬件升级的固有认知。其创新的FP8格式和JIT编译技术,为AI行业带来了显著的性能...

混合精度计算:DeepSeek-V3如何推动大模型训练效率革命

DeepSeek-V3通过创新的混合精度计算框架,显著降低了大模型训练的资源消耗。本文将深入探讨其FP8混合精度技术的核心优势,以及如何通过细粒度量化和策略性精...