nGPT是一个开源项目,旨在复现NVIDIA的nGPT模型,通过优化Transformer架构,大幅提升训练效率。该项目使用LLaMA分词器,进一步优化模型性能,在1k和4k上下文中分别实现1.5-2倍和4倍的加速效果,相比传统Transformer,训练速度提升4-20倍。