AI训练效率 | AI-magic

DeepSeek-V3：如何在H800 GPU集群上实现高效AI训练

DeepSeek-V3在H800 GPU集群上以557.6万美元的成本实现了与GPT-4比肩的性能，通过FP8混合精度、多层注意力架构和DualPipe并行技术，显著提升了训练效率和资源...

AI快讯

2个月前

DeepSeek在开源周期间发布了一系列优化并行策略工具，包括DualPipe和EPLB，旨在解决大规模AI模型训练中的效率问题。这些工具通过重叠计算与通信、动态负载均...

AI快讯

2个月前

本文深入探讨了DeepSeek大模型中MLA低秩矩阵压缩技术的核心原理及其在AI训练和推理中的关键作用。通过KV压缩、低秩降维和动态序列处理，MLA显著减少了内存占...

AI快讯

2个月前