标签:大模型优化
生成式召回:NVIDIA TensorRT-LLM 在推荐与搜索广告中的加速实践
本文探讨了 NVIDIA TensorRT-LLM 在生成式召回中的应用,详细分析了生成式推荐系统相较于传统推荐系统的优势,包括流程简化、知识融合与规模定律的应用,并展...
LLMxMapReduce:打破大模型记忆限制的长文本处理技术
清华大学与厦门大学等联合提出的LLMxMapReduce技术,通过长文本分帧处理、结构化通信协议和上下文置信度校准机制,打破了大模型的记忆限制,实现了上下文长度...
Switch Transformer:稀疏专家混合模型的革命性突破
谷歌推出的Switch Transformer模型通过稀疏专家混合(MoE)架构,在NLP任务中实现了性能与效率的双重突破。本文深入探讨Switch Transformer的核心优势、技术...
开源大模型DeepSeek-R1:低成本高性能AI的新标杆
中国深度求索(DeepSeek)发布的DeepSeek-R1开源大模型以其低成本高性能的特点引发全球关注。通过MOE(Mixture of Experts)等技术优化,DeepSeek-R1大幅降低...
MLA低秩矩阵压缩:DeepSeek大模型性能优化的核心技术
本文深入探讨了DeepSeek大模型中MLA低秩矩阵压缩技术的核心原理及其在AI训练和推理中的关键作用。通过KV压缩、低秩降维和动态序列处理,MLA显著减少了内存占...