torchtitan开源项目 – PyTorch原生大规模模型训练库
torchtitan是一个基于PyTorch的大型语言模型(LLM)训练库,专注于简化大规模模型的训练过程。它支持多种并行技术,如FSDP2、Tensor Parallel、Pipeline Parallel和Context Parallel,并提供了详细的文档和调试工具。torchtitan旨在展示PyTorch最新的分布式训练特性,并适用于研究新的并行技术和探索分布式训练中的最佳实践。项目目前处于预发布状态,支持从头开始预训练Llama 3.1 LLM,并提供了丰富的功能模块和灵活的配置选项。