mdy_triton官网 – 一行代码加速Hugging Face模型训练
mdy_triton 是一个基于Triton优化工具的项目,旨在通过优化关键算子(如RMSNorm、RoPE等)显著加速Hugging Face模型的训练过程。
其核心优势在于无需修改现有代码即可实现加速,支持LLaMA、Qwen2等多种主流模型,并能与Flash Attention、PyTorch FSDP等框架无缝集成。
根据测试数据,部分算子加速效果超过10倍,整体训练吞吐量提升20%以上,内存占用减少60%,支持更长上下文和更大批量训练。