高性能计算 | 第 4 页

英伟达B100：AI计算的新标杆与市场挑战

文章深入探讨了英伟达在人工智能领域的最新进展，特别是其即将发布的旗舰产品B100。B100不仅在AI计算性能上实现了显著提升，还面临来自AMD等竞争对手的激烈竞...

AI快讯

2个月前

本文深入探讨了英特尔第五代至强可扩展处理器Emerald Rapids的革新特性及其在AI算力领域的应用前景。通过核心架构和内存系统的双重飞跃，Emerald Rapids为大...

AI快讯

2个月前

DeepSeek的FlashMLA技术通过优化英伟达H800的推理性能、内存带宽和显存利用率，显著提升了AI模型的响应速度和吞吐量。这一技术不仅强化了英伟达的生态价值，...

AI快讯

2个月前

本文探讨了DPU在裸金属云架构中的关键作用，重点分析了优刻得基于NVIDIA BlueField DPU的技术创新，包括裸金属物理云1.0和2.0的架构与性能优势。文章还展望了...

AI快讯

2个月前

随着AI算力需求的持续增长，传统冯·诺依曼架构面临存算性能失配问题，近存计算技术应运而生。其中，高带宽内存（HBM）凭借其高带宽、低功耗的优势，成为高性...

AI快讯

2个月前

DeepSeek在2025年开源周期间发布的FlashMLA，是一款专为Hopper GPU优化的高效MLA解码内核，支持BF16和分页KV缓存，显著提升AI模型的训练和推理性能，适用于医...

AI快讯

2个月前

DeepSeek在“开源周”期间发布了高性能并行文件系统3FS，旨在解决AI训练和推理中的存储挑战。3FS凭借去中心化架构和强一致性语义，在集群吞吐量和单节点性能上...

AI快讯

2个月前

本文深入探讨了Cerebras WSE-3与NVIDIA H100在AI芯片领域的性能对比，分析了它们在架构、内存、计算能力等方面的差异，并展望了未来AI计算的发展趋势。

AI快讯

2个月前

DeepSeek在2025年开源了针对Hopper GPU优化的FlashMLA解码内核，专为处理可变长度序列设计。通过动态调度和内存优化，FlashMLA大幅提升了AI模型的解码效率，...

AI快讯

2个月前