专家自主选择模型 (AoE) 是一种新型的混合专家模型 (MoE),专家根据其内部激活范数自主决定是否处理输入,从而消除了传统的路由模块。这种方法通过低秩分解提高了效率,并在自然语言理解任务中表现出色。AoE 的设计减少了计算开销,简化了架构,并在多个自然语言理解任务上优于传统 MoE 模型。
Linear-MoE 是一个基于 Megatron-Core 的线性混合专家模型库,专注于为高效训练和部署大型语言模型提供强大支持。它集成了多种线性注意力机制,支持多种模型架构,并具备高效的分布式训练能力,助力大规模模型开发。此外,Linear-MoE 还提供了丰富的预训练和微调脚本,极大地简化了开发流程。
基于LLaMA和SlimPajama的MoE模型,旨在利用混合专家模型进行持续预训练。该模型结合了LLaMA和SlimPajama的优点,通过支持混合专家架构,提高模型的效率和性能,同时能够进行持续的预训练,以适应不同的任务,灵活的模型配置使其适用于多种应用场景。
一个可定制、简洁、用户友好且高效的工具包,用于训练和微调大型语言模型,支持多种训练和优化方法,以提高模型性能和稳定性。
Vercel AI Playground是一个在线平台,允许用户使用最新的AI语言模型构建AI驱动的应用程序。它提供了一系列功能来微调模型,例如并排比较模型的Compare Mode和优化参数的Tweak Mode。
一个合并预训练大型语言模型的工具,能够将多个模型组合成一个独特的、性能更优的模型。
该项目总结了大语言模型的微调技术,探讨了指令微调和对齐微调的方法,旨在提升模型在特定任务上的表现。
Helibrunna是一个兼容Hugging Face的xLSTM训练框架,旨在探索xLSTM在AI领域的潜力,提升模型训练效率并支持实验性研究。
ModuleFormer是一个模块化的大模型,通过使用不同的模块来提高效率和灵活性。该模型允许根据输入动态激活特定模块,从而实现针对特定领域的优化和轻量化。