标签:AI训练效率

DeepSeek-V3:如何在H800 GPU集群上实现高效AI训练

DeepSeek-V3在H800 GPU集群上以557.6万美元的成本实现了与GPT-4比肩的性能,通过FP8混合精度、多层注意力架构和DualPipe并行技术,显著提升了训练效率和资源...

DeepSeek开源周:优化并行策略推动AI训练效率革命

DeepSeek在开源周期间发布了一系列优化并行策略工具,包括DualPipe和EPLB,旨在解决大规模AI模型训练中的效率问题。这些工具通过重叠计算与通信、动态负载均...

MLA低秩矩阵压缩:DeepSeek大模型性能优化的核心技术

本文深入探讨了DeepSeek大模型中MLA低秩矩阵压缩技术的核心原理及其在AI训练和推理中的关键作用。通过KV压缩、低秩降维和动态序列处理,MLA显著减少了内存占...