ThunderKittens 是一个旨在简化 CUDA 深度学习核心编写的框架,以其简单性、可扩展性和高性能著称。它帮助开发者更轻松地编写高效的 CUDA 核心,特别适用于需要高性能计算的深度学习任务。