Muon 是一种专门针对神经网络隐藏层设计的优化算法,旨在提高训练效率和降低计算成本。它通过集中调整隐藏层中的参数,显著提升了整体训练性能。Muon 已成功应用于多个项目,如 NanoGPT 和 CIFAR-10 的快速训练,证明了其在提高训练速度和降低计算成本方面的有效性。
Sparrow 是一种数据高效的视频大语言模型(Video-LLM),通过文本到图像的增强技术来提高视频指令的多样性,显著提升了训练效率。
FP4 训练是一种创新的深度学习训练方法,能够在保持与FP8和BF16相当精度的同时,扩展到13B大小的模型。与传统方法不同,FP4 训练在2.4B后不会崩溃,适用于大规模模型的训练,并能显著提高训练效率,减少计算资源消耗。
专为大型语言模型(LLM)训练优化的类,集成了多种高效训练技术,旨在提升训练效率和内存使用效率。
该项目研究了prompt在不同下游任务和不同类型、规模的预训练语言模型之间的迁移性,探索其在零样本设定下的有效性、对其他模型的适用性以及对训练速度的提升,并分析了影响迁移性的因素。
Tied-LoRA是一种简单的范式,它利用和来增加LoRA方法的参数效率。该方法在多个任务中表现出相当的性能,并且仅使用标准LoRA方法的13%的参数,有助于减少模型的复杂性和提升训练效率。
nGPT是NVIDIA开发的标准化Transformer模型,基于nanoGPT进行改进,旨在提升训练效率和处理能力。它通过在超球面上的表示学习和标准化过程,实现了对低精度运算的更好鲁棒性,并在不同的上下文长度设置中提供了显著的训练加速。
通过实现环境配置功能以及整合多项优化训练技术,使得用户能以简单高效的方式对语言模型进行训练优化,得到切实可行的产出
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
FuseLLM 是一个旨在通过融合多种大型语言模型的知识,以提高推理能力的项目。该项目能够结合不同模型的优点,扩展知识的边界,适用于多种自然语言处理任务,提供更强大的模型性能。
self-adaptive-llms 是一个自适应框架,可以使大型语言模型实时适应未见过的任务,像是为模型装上“智能调节器”,从而在面对新任务时迅速调整,更好地完成任务。
是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。
这个研究项目致力于复现并理解 OpenAI 的 O1 模型,重点是开发新的训练方法,并深入探究大型语言模型 (LLMs) 中复杂推理的底层原理。目前已经发布了三篇研究论文。
GS-LoRA项目致力于为预训练视觉模型提供持续学习的能力,减少灾难性遗忘的问题,从而在新任务上有效微调模型,提高模型在顺序学习任务中的表现。
openai-forward是一个专为大型语言模型设计的高效转发服务,支持OpenAI API的反向代理功能,旨在提升请求处理效率,简化集成过程。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型