标签:高性能计算

英伟达B100:AI计算的新标杆与市场挑战

文章深入探讨了英伟达在人工智能领域的最新进展,特别是其即将发布的旗舰产品B100。B100不仅在AI计算性能上实现了显著提升,还面临来自AMD等竞争对手的激烈竞...

英特尔Emerald Rapids处理器:AI算力的新引擎

本文深入探讨了英特尔第五代至强可扩展处理器Emerald Rapids的革新特性及其在AI算力领域的应用前景。通过核心架构和内存系统的双重飞跃,Emerald Rapids为大...

DeepSeek与英伟达的博弈:FlashMLA如何重塑AI推理市场

DeepSeek的FlashMLA技术通过优化英伟达H800的推理性能、内存带宽和显存利用率,显著提升了AI模型的响应速度和吞吐量。这一技术不仅强化了英伟达的生态价值,...

DPU驱动的裸金属云架构:优刻得的技术创新与未来展望

本文探讨了DPU在裸金属云架构中的关键作用,重点分析了优刻得基于NVIDIA BlueField DPU的技术创新,包括裸金属物理云1.0和2.0的架构与性能优势。文章还展望了...

HBM技术引领存储行业变革,AI算力需求驱动市场新机遇

随着AI算力需求的持续增长,传统冯·诺依曼架构面临存算性能失配问题,近存计算技术应运而生。其中,高带宽内存(HBM)凭借其高带宽、低功耗的优势,成为高性...

FlashMLA:开源AI优化新标杆,Hopper GPU性能革命

DeepSeek在2025年开源周期间发布的FlashMLA,是一款专为Hopper GPU优化的高效MLA解码内核,支持BF16和分页KV缓存,显著提升AI模型的训练和推理性能,适用于医...

高性能并行文件系统3FS:推动AI训练与推理的新引擎

DeepSeek在“开源周”期间发布了高性能并行文件系统3FS,旨在解决AI训练和推理中的存储挑战。3FS凭借去中心化架构和强一致性语义,在集群吞吐量和单节点性能上...

Cerebras WSE-3与NVIDIA H100:AI芯片领域的巅峰对决

本文深入探讨了Cerebras WSE-3与NVIDIA H100在AI芯片领域的性能对比,分析了它们在架构、内存、计算能力等方面的差异,并展望了未来AI计算的发展趋势。

Hopper GPU的革命性突破:DeepSeek开源FlashMLA解码内核

DeepSeek在2025年开源了针对Hopper GPU优化的FlashMLA解码内核,专为处理可变长度序列设计。通过动态调度和内存优化,FlashMLA大幅提升了AI模型的解码效率,...
1 2 3 4