该项目是一个从零开始构建大语言模型的开源教程,不依赖任何外部库,仅使用Python和PyTorch实现。教程详细讲解了从基础到进阶的LLM构建过程,包括模型结构、注意力模块、KV Cache等核心概念,并提供了训练和微调的代码,帮助读者快速上手和实践。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型