深度学习加速

NX-AI/mlstm_kernels开源项目 – 高效的mLSTM计算库

NX-AI/mlstm_kernels 是一个用于快速高效处理mLSTM核的库，支持并行、分块和递归步骤处理，并提供了PyTorch和JAX的封装，适用于深度学习模型中的mLSTM计算加速。

DeepGEMM是一款采用CUDA编写的FP8通用矩阵乘法库，具有全JIT编译设计，简化了运维流程并提供卓越的计算性能。它支持稠密矩阵与混合专家（MoE）矩阵乘法，为V3/R1模型训练推理提供高效算力。DeepGEMM在NVIDIA Hopper架构上表现出色，最大性能提升2.7倍，支持细粒度缩放技术，解决FP8精度损失问题，并采用两级累加技术确保结果准确性。

CUDA编写JIT编译低成本高性能计算解决方案深度学习加速

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

深度学习加速

通过字节跳动免费使用满血可联网DeepSeek R1

现在注册，立即送145元代金券