KernelBench开源项目 – 高效GPU内核生成与评估工具
KernelBench 是一个专注于使用大模型生成高效GPU内核的项目,旨在通过编写自定义内核来替代PyTorch中的标准实现,并评估其正确性和性能提升。该项目包含250个神经网络任务,涵盖基础Kernel操作、简单的fusion pattern和完整的神经网络结构。同时,KernelBench 还提供四个级别的测试类别,包括单内核运算符、简单融合模式、完整模型架构和HuggingFace模型优化,以测试LLM将PyTorch算子转译为CUDA内核的能力,并评估生成代码的编译、正确性和性能。