自定义SGEMM内核

挑战cuBLAS在单精度通用矩阵乘法性能极限的项目，通过优化CUDA代码，实现了在特定GPU架构和矩阵尺寸下超越cuBLAS的计算速度，为高性能计算领域提供了新的可能性。

专门为流化 GPU/CPU 内核开发设计的领域特定语言，让开发者在不牺牲性能的前提下，更高效地开发计算密集型任务。

nvcc4jupyter是一个用于Jupyter Notebook的CUDA C++插件，允许用户方便地在Jupyter环境中编写和执行CUDA C/C++代码，集成CUDA编译器，简化GPU编程与测试流程。

fastllm是一个纯C++开发的全平台大模型加速库，具有无第三方依赖的特性，当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度，并且能够在安卓设备上流畅运行ChatGLM-6B，同时支持CUDA进行计算加速。

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。