推理速度 | AI-magic

INT4量化模型的推理速度为何不如FP8？硬件与计算开销的深度解析

本文深入探讨了INT4量化模型在推理时速度可能不如FP8量化模型的原因，重点分析了硬件支持、内存访问模式和计算开销的影响。通过对比INT4和FP8的性能，文章指...

AI快讯

3个月前

美国AI初创公司Groq推出的LPU（Language Processing Unit）芯片，基于创新的Tensor Streaming Architecture架构，专为云端大模型推理设计，实现了惊人的推理...

AI快讯

3个月前

NVIDIA最新发布的Triton推理服务器通过动态批处理与硬件感知优化，在A100显卡上实现了70B参数模型的推理速度突破，达到每秒60个token，较传统方案提升4.5倍。...

AI快讯

3个月前

DeepSeek凭借其开源大模型DeepSeek-R1，在知识问答、长文本处理、代码生成和数学能力等方面达到顶尖水平，迅速超越ChatGPT，登顶苹果美国地区应用商店免费App...

AI快讯

3个月前

微软CEO萨蒂亚·纳德拉高度评价中国AI初创企业DeepSeek，称赞其在计算效率、推理速度及多模态数据处理方面的创新表现。DeepSeek凭借领先的神经网络架构和自我...

AI快讯

4个月前

DeepSeek于2025年2月25日开源的DeepEP通信库，专为混合专家模型（MoE）设计，通过优化NVLink和RDMA技术，实现了极速传输、智能分拣与压缩，显著降低训练成本...

AI快讯

4个月前