self-adaptive-llms 是一个自适应框架,可以使大型语言模型实时适应未见过的任务,像是为模型装上“智能调节器”,从而在面对新任务时迅速调整,更好地完成任务。
激活信标可以将LLM的原始激活压缩成更紧凑的形式,从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文,同时保留LLM在短上下文上的原始能力,显著提高了长上下文语言建模和理解任务的表现。
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
模型在预训练阶段往往会专注于降低预训练损失函数的特征,导致特征学习和泛化能力不足。本文提出,提升模型习得表征的方差并降低其协方差,从而提升模型和上面的转移学习表现。
RoRF路由森林是一个基于随机森林的模型路由框架,能够通过智能选择不同模型来降低成本,同时保持或提升性能,特别适用于大规模语言模型(LLM).
Llama Stack 是一个开源项目,旨在将 LLM 应用构建生成周期的所有组件打包,包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等,并支持 9+ 提供商。
Visual Prompt Tuning是一种通过使用提示调整技术来提高视觉模型性能的方法。该方法可以有效地应用于多种视觉任务,旨在通过对现有模型进行微调,最大限度地减少参数调整,同时增强模型的表现。
GS-LoRA项目致力于为预训练视觉模型提供持续学习的能力,减少灾难性遗忘的问题,从而在新任务上有效微调模型,提高模型在顺序学习任务中的表现。
GroupMixFormer是一种高效神经网络架构,基于Group-Mix Attention机制,旨在显著提升各种视觉任务的性能,特别是在图像分类、目标检测和语义分割等领域。