模型在预训练阶段往往会专注于降低预训练损失函数的特征,导致特征学习和泛化能力不足。本文提出,提升模型习得表征的方差并降低其协方差,从而提升模型和上面的转移学习表现。
self-adaptive-llms 是一个自适应框架,可以使大型语言模型实时适应未见过的任务,像是为模型装上“智能调节器”,从而在面对新任务时迅速调整,更好地完成任务。
Mask-tuning是一种训练方法,通过将训练目标集成到微调过程中,旨在提升预训练语言模型在特定任务上的表现和泛化能力,尤其是在未见过的数据上。
MagicPrompts通过将单行GPT-4提示转换为最佳实践提示,帮助用户增强与大型语言模型(LLM)的互动体验,优化生成内容的质量和创意。
这是一个开放的集合,提供了成功训练大型语言模型的方法论,适用于不同规模和类型的语言模型,包含多种训练技巧和最佳实践。该项目由社区驱动,持续更新和扩展,旨在帮助研究人员和开发者提高语言模型的训练效果。