该项目研究了神经切线核(NTK)在理解深层神经网络泛化方面的局限性,特别是在网络深度增加时的性能表现。研究发现,NTK理论中的“等价定理”在实践中可能不成立,NTK模型在增加网络层数时,性能提升不明显,且可能不如高斯过程核。这提示我们需要重新考虑神经网络的理论框架,强调特征学习在改善性能中的关键作用。
该项目提出了一种潜变量统计模型,用于自监督学习(SSL),将SSL损失函数与统计生成过程联系起来。该模型假设数据由潜在高斯变量线性变换并被噪声破坏生成,正样本为原始数据的噪声版本。最大似然估计可根据数据增强的信息量简化为主成分分析(PCA)或一个简单的非对比损失。数值模拟验证了理论发现,表明在正交噪声设置中SSL优于PCA,而在各向同性噪声设置中表现相似。
模型在预训练阶段往往会专注于降低预训练损失函数的特征,导致特征学习和泛化能力不足。本文提出,提升模型习得表征的方差并降低其协方差,从而提升模型和上面的转移学习表现。
self-adaptive-llms 是一个自适应框架,可以使大型语言模型实时适应未见过的任务,像是为模型装上“智能调节器”,从而在面对新任务时迅速调整,更好地完成任务。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
MagicPrompts通过将单行GPT-4提示转换为最佳实践提示,帮助用户增强与大型语言模型(LLM)的互动体验,优化生成内容的质量和创意。
这是一个开放的集合,提供了成功训练大型语言模型的方法论,适用于不同规模和类型的语言模型,包含多种训练技巧和最佳实践。该项目由社区驱动,持续更新和扩展,旨在帮助研究人员和开发者提高语言模型的训练效果。