本项目提出了一种新型的无数据知识蒸馏(DFKD)方法,通过结合特征合成和空间一致性来提升合成数据的质量并增强学生模型的性能。该方法生成多样且信息丰富的特征来指导学生模型,并使用空间一致性损失来鼓励学生模型在合成数据上产生空间一致的预测。这种方法允许在没有原始训练数据的情况下有效地从教师模型向学生模型转移知识,解决了隐私或存储限制的问题。
RIP是一种新型数据筛选方法,通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示,从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化(DPO)中的偏好对,能够筛选掉低质量的指令提示,并可以扩展为Self-RIP,用于生成高质量的合成指令数据。研究显示,RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。
OpenAI 在其 API 中推出了一系列新特性和改进,包括功能调用能力、新模型版本、更长的上下文、成本降低和旧模型弃用计划。这些更新旨在提升开发者体验和模型性能,特别是在处理外部系统交互、长文本分析和成本效益方面。
Overthinking 是一个系统评估框架,用于自动评估大语言模型中的过度思考行为。它通过分析模型是否过度依赖内部推理而非与环境互动,识别三种过度思考模式:'分析瘫痪'、'鲁莽行动'和'过早脱离',并提供量化评分,帮助提升模型性能约30%。
AKG (Auto Kernel Generator) 是一个用于深度学习网络中的算子优化器,能够自动融合具有特定模式的算子,从而提升深度学习模型的性能。
hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数(HL-Gauss),为回归任务提供了全新的视角,能够有效提升模型的性能。
AceCoder项目旨在通过自动化流程大规模生成高质量、可验证的代码训练数据,从而提升代码生成模型的性能。
该项目旨在实现稀疏和稳健的预训练语言模型,以提高语言理解的能力和效率。
该项目专注于通过投影器集成方法增强特征蒸馏技术,以提高模型性能和特征提取能力。
该研究调查了小型Transformer如何使用下一个token预测目标有效地学习算术运算和基本函数,包括加法、乘法、平方根等。
Noisy-Model-Learning项目旨在理解和缓解在下游任务中预训练过程中的标签噪声影响,从而提高模型在实际应用中的性能。该项目通过分析标签噪声对模型学习的影响,提出有效的策略和方法,以帮助研究人员和开发者在处理带有噪声标签的数据集时,提升模型的准确性和可靠性。
LLaMA3揭示了模型架构不变的情况下,通过增加数据量可以显著提升模型性能的现实。
该项目提供了一种视频语义分割的方法,利用帧间特征重建技术,在半监督学习的框架下提升模型性能,适用于缺乏标注数据的场景。
Hugging Face 实现并开源的推理阶段计算扩展研究,通过动态计算策略提升小型语言模型的性能。
BiPE (Bilevel Positional Encoding) 旨在通过双层位置编码技术,提高模型在处理不同输入长度时的预测能力,尤其适用于序列建模任务。该项目通过增强位置编码的表达力,从而改善模型在长文本和变长输入上的性能。
该项目专注于在知识蒸馏中弥合不同架构之间的性能差距,通过有效的策略提升模型的表现。
QA-LoRA: 语言大模型的量化感知低秩适应。旨在量化和适应之间存在的不平衡自由度,通过组内操作符增加量化自由度,减少适应自由度,易于实施且性能显著提升。
typical-sampling 是一个为 Jax、PyTorch 和 TensorFlow 打造的先进自然语言处理工具,支持典型采样算法,旨在优化模型训练和推理过程,提供易于集成的 API 以提升开发效率。