模型压缩 | 第 2 页

量化感知训练：DeepSeek模型轻量化的关键技术

随着AI模型规模的扩大，DeepSeek的720GB全量模型在部署时面临巨大挑战。量化感知训练（QAT）作为一种高效的模型压缩技术，能够在保证精度的同时显著降低模型...

AI快讯

4个月前

DeepSeek公司最新推出的知识蒸馏加速框架，通过创新的分层蒸馏策略和动态温度调节机制，在保持95%模型性能的同时，将训练时间压缩至原版的1/5。该技术在BERT...

AI快讯

4个月前

DeepSeek公司推出的分层蒸馏策略通过创新的渐进式知识迁移算法和动态温度调节机制，在保持95%模型性能的同时，将训练时间压缩至原版的1/5。该技术在BERT模型...

AI快讯

4个月前

DeepSeek最新知识蒸馏加速框架通过分层蒸馏策略和动态温度调节机制，在保持95%模型性能的同时，将训练时间压缩至原版的1/5。该技术在BERT模型压缩任务中，推...

AI快讯

4个月前

本文探讨了大型语言模型（LLM）的最新进展，包括斯坦福大学和DeepMind提出的使用LLM作为代理奖励函数的创新方法，以及普林斯顿大学和斯坦福大学联合开发的CAL...

AI快讯

4个月前