Linear-MoE 是一个基于 Megatron-Core 的线性混合专家模型库,专注于为高效训练和部署大型语言模型提供强大支持。它集成了多种线性注意力机制,支持多种模型架构,并具备高效的分布式训练能力,助力大规模模型开发。此外,Linear-MoE 还提供了丰富的预训练和微调脚本,极大地简化了开发流程。