Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

该项目是Kullback-Leibler(KL)散度的扩展版本,通过数学证明将其解耦为加权均方误差损失和带软标签的交叉熵损失。
主要解决了传统KL损失在知识蒸馏中的不对称优化问题,引入类别全局信息减少样本偏差,显著提升了模型训练的稳定性和对抗鲁棒性。
在RobustBench排行榜上达到最先进水平,并在CIFAR-10/100、ImageNet等数据集的知识蒸馏任务中表现优异。
广义Kullback-Leibler(GKL)散度损失的特点:
- 1. 打破KL损失的不对称优化特性
- 2. 采用平滑权重函数缓解高预测得分类别的收敛问题
- 3. 在RobustBench上实现SOTA对抗鲁棒性
- 4. 提升跨模态知识蒸馏性能(如CLIP模型)
- 5. 支持CIFAR/ImageNet/视觉语言多类数据集
广义Kullback-Leibler(GKL)散度损失的功能:
- 1. 对抗训练中增强模型鲁棒性
- 2. 教师模型到学生模型的知识蒸馏
- 3. 视觉语言模型的零样本分类优化
- 4. 医疗/金融等高安全性场景的模型训练
- 5. 跨模态学习任务中的损失函数改进
相关导航

Intel Extension for Transformers
Intel Extension for Transformers 是一个开源项目,旨在使客户端 CPU 上的大型语言模型(LLM)微调成为可能,特别是在没有 GPU 的情况下。它支持在 CPU 上进行 QLoRA 微调,适用于笔记本电脑环境,并通过优化的性能提升模型训练效率。该项目与 HuggingFace Transformers 兼容,支持 4 位推理,并利用 Intel 神经压缩器提供丰富的模型压缩技术,如量化、剪枝和蒸馏,显著提高了英特尔平台上的推理效率。此外,它还支持自动化的仅限权重的 INT4 量化流程,兼容多个流行的大语言模型,如 Llama2、Llama 和 GPT-NeoX。
暂无评论...