YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
FuseLLM 是一个旨在通过融合多种大型语言模型的知识,以提高推理能力的项目。该项目能够结合不同模型的优点,扩展知识的边界,适用于多种自然语言处理任务,提供更强大的模型性能。
self-adaptive-llms 是一个自适应框架,可以使大型语言模型实时适应未见过的任务,像是为模型装上“智能调节器”,从而在面对新任务时迅速调整,更好地完成任务。
是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。
通过实现环境配置功能以及整合多项优化训练技术,使得用户能以简单高效的方式对语言模型进行训练优化,得到切实可行的产出
这个研究项目致力于复现并理解 OpenAI 的 O1 模型,重点是开发新的训练方法,并深入探究大型语言模型 (LLMs) 中复杂推理的底层原理。目前已经发布了三篇研究论文。
GS-LoRA项目致力于为预训练视觉模型提供持续学习的能力,减少灾难性遗忘的问题,从而在新任务上有效微调模型,提高模型在顺序学习任务中的表现。
openai-forward是一个专为大型语言模型设计的高效转发服务,支持OpenAI API的反向代理功能,旨在提升请求处理效率,简化集成过程。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
一种通过基于目标的预训练方法来提高强化学习中的样本效率。