这是一个基于《Attention is All You Need》论文的教学项目,使用 PyTorch 从头实现 Transformer 模型。项目详细介绍了从数据获取、预处理到模型训练和文本生成的全过程,支持在单个 GPU 上训练百万甚至十亿参数的模型。