使用C++以及CUDA加速神经网络样例,主要实现了矩阵加法和矩阵乘法,提供高效的计算能力,适用于深度学习中的高性能计算需求。
Taichi是一种嵌入在Python中的领域特定语言,旨在加速Python代码执行,使其运行速度接近C++甚至CUDA,提供高性能的计算能力,同时保持Python的灵活性和简洁性。它支持多种硬件平台,包括CPU和GPU,并内置自动微分功能,具有强大的并行计算能力,适合各类高性能计算任务。
taichi.js是一个现代化的JavaScript GPU计算框架,旨在提供高性能的计算能力,使开发者能够轻松地进行图形渲染、物理模拟、机器学习任务等。它支持多种数据类型,拥有易于使用的API,且具备跨平台兼容性,适用于多种应用场景。
Tricksy是一款支持在单个GPU上进行快速推理的工具,利用稀疏感知卸载技术来提高推理效率和速度,同时优化资源使用,适用于深度学习模型的多种场景。
GPU Finder是一个网站,帮助客户发现来自全球公共云提供商的可用GPU实例。它提供了不同云提供商提供的各种GPU、GPU服务器和GPU计算平台的信息。
QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案,大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率,并且可以在经济实惠的硬件上高效运行。
Inference.ai是一个前沿的GPU云服务提供商,专注于为需要强大计算能力的企业和个人提供可扩展、经济高效的GPU云,消除物理硬件管理的负担。
该项目通过Tensorrt技术加速SAM模型的推理过程,旨在提升图像分割的效率和性能,确保其在多种硬件平台上的兼容性,适用于各类深度学习应用。
CogVideoX Factory 是一个在 24GB GPU 内存下对 Cog 系列视频模型进行微调的项目,旨在实现高效的自定义视频生成,支持多种分辨率,提供内存优化的微调脚本和基于 TorchAO 和 DeepSpeed 的训练方式,适用于多种深度学习工作流。