mdy_triton是一个专为Hugging Face模型训练设计的一键加速工具,通过Triton优化技术显著提升训练效率。用户只需一行代码即可实现加速,无需修改现有代码。该工具支持多种模型,如LLaMA、Qwen2等,并且在部分算子(如RMSNorm)上表现出色,加速效果可达10倍以上。
FlashMLA是专为Hopper架构GPU设计的高效MLA解码内核,特别针对可变长度序列服务进行了优化。它结合了FlashAttention 2&3和cutlass两个加速项目的技术,显著提升了H800 GPU的计算性能。支持BF16精度,采用块大小为64的分页kvcache,使用CUDA 12.6,在H800 SXM5上实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能。