rational_kat_cu 是一个用于 Kolmogorov–Arnold Transformers (KAT) 的 CUDA C++ 扩展项目,专注于实现 group rational function,并支持高效的训练和推理。通过 CUDA 加速,该项目显著提升了 KAT 模型的性能,特别适用于需要高性能计算的场景。
RaySplatting是一种基于光线追踪的高斯点绘制技术,通过CUDA加速和少量训练数据,能够实现高效且逼真的3D渲染。该技术支持多种平台,具有超强的适配性,适用于需要快速渲染的场景。
sdf_gen是一个专为3D生成模型设计的工具,提供高效且简洁的SDF数据处理方案。它通过CUDA加速技术,能够在单个网格处理时间小于10秒的情况下,快速处理3D模型的SDF数据。该项目支持多种点采样方式,包括体积点和近表面点,并且无需显式转换为水密网格,极大地简化了3D数据处理的流程。
fastllm是一个纯C++开发的全平台大模型加速库,具有无第三方依赖的特性,当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度,并且能够在安卓设备上流畅运行ChatGLM-6B,同时支持CUDA进行计算加速。
Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
Hugging Face生态(Transformers, Datasets, Tokenizers, and Accelerate等)使用教程,旨在帮助用户掌握各种工具和库,提供实践示例和交互式学习体验,适合不同水平的开发者。
一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
nvcc4jupyter是一个用于Jupyter Notebook的CUDA C++插件,允许用户方便地在Jupyter环境中编写和执行CUDA C/C++代码,集成CUDA编译器,简化GPU编程与测试流程。
CogVideoX Factory 是一个在 24GB GPU 内存下对 Cog 系列视频模型进行微调的项目,旨在实现高效的自定义视频生成,支持多种分辨率,提供内存优化的微调脚本和基于 TorchAO 和 DeepSpeed 的训练方式,适用于多种深度学习工作流。
挑战cuBLAS在单精度通用矩阵乘法性能极限的项目,通过优化CUDA代码,实现了在特定GPU架构和矩阵尺寸下超越cuBLAS的计算速度,为高性能计算领域提供了新的可能性。