NX-AI/mlstm_kernels 是一个用于快速高效处理mLSTM核的库,支持并行、分块和递归步骤处理,并提供了PyTorch和JAX的封装,适用于深度学习模型中的mLSTM计算加速。
DeepGEMM是一款采用CUDA编写的FP8通用矩阵乘法库,具有全JIT编译设计,简化了运维流程并提供卓越的计算性能。它支持稠密矩阵与混合专家(MoE)矩阵乘法,为V3/R1模型训练推理提供高效算力。DeepGEMM在NVIDIA Hopper架构上表现出色,最大性能提升2.7倍,支持细粒度缩放技术,解决FP8精度损失问题,并采用两级累加技术确保结果准确性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型