所有AI工具AI开发框架AI开源项目AI编程工具

torchtitan开源项目 – PyTorch原生大规模模型训练库

torchtitan是一个基于PyTorch的大型语言模型(LLM)训练库,专注于简化大规模模型的训练过程。它支持多种并行技术,如FSDP2、Tensor Parallel、Pipeline Parallel和Context Parall...

标签:

AI交流(进群备注:torchtitan)

torchtitan是一个基于PyTorch的大型语言模型(LLM)训练库,专注于简化大规模模型的训练过程。它支持多种并行技术,如FSDP2、Tensor Parallel、Pipeline Parallel和Context Parallel,并提供了详细的文档和调试工具。torchtitan旨在展示PyTorch最新的分布式训练特性,并适用于研究新的并行技术和探索分布式训练中的最佳实践。项目目前处于预发布状态,支持从头开始预训练Llama 3.1 LLM,并提供了丰富的功能模块和灵活的配置选项。

torchtitan的特点:

  • 1. 支持多维度可组合并行技术
  • 2. Meta设备初始化
  • 3. 选择性激活检查点
  • 4. 分布式检查点(包括异步检查点)
  • 5. torch.compile支持
  • 6. Float8支持
  • 7. DDP和HSDP
  • 8. TorchFT集成
  • 9. 可检查点的数据加载,支持C4数据集和自定义数据集
  • 10. 灵活的学习率调度器
  • 11. 通过Tensorboard或Weights & Biases显示和记录损失、GPU内存、吞吐量等指标
  • 12. 调试工具,包括CPU/GPU分析、内存分析、飞行记录器等
  • 13. 所有选项通过toml文件轻松配置
  • 14. 提供下载Hugging Face分词器、转换Llama 3检查点、估计FSDP/HSDP内存使用等辅助脚本

torchtitan的功能:

  • 1. 本地训练Llama 3 8B模型,使用8个GPU
  • 2. 多节点训练,支持ParallelCluster/Slurm配置
  • 3. 下载并安装torchtitan,配置环境
  • 4. 下载Llama 3.1分词器,准备训练数据
  • 5. 运行训练脚本,启动训练任务

相关导航

暂无评论

暂无评论...