OneFlow 是一个分布式深度学习框架,旨在使每位算法工程师能够训练超大模型,例如 GPT,克服高训练成本和大模型落地难的问题。它提供易用且高效的动态图和静态图训练接口,支持多种硬件设备,简化模型部署和训练过程。
一个用于在互联网上高效、全球分布式训练人工智能模型的框架,具备弹性设备网络、异步分布式检查点、实时检查点恢复等特性,旨在优化全球范围内的AI模型训练过程
这个开源项目的功能是对类似 #ChatGPT# 的模型进行简单、快速且经济实惠的 RLHF 训练。
旨在开发支持大规模并行训练的机器学习天气和气候模型的PyTorch框架,Makani 提供高效的计算资源利用,帮助研究人员进行气候变化研究和天气预测。
一个轻量级自动微分框架,为希望深入理解深度学习底层原理的开发者设计,帮助用户从零掌握神经网络梯度计算、计算图构建及参数优化的底层逻辑。
Lightning + Colossal-AI 是一个结合了Colossal AI和Lightning AI强大功能的大规模分布式模型训练框架,旨在简化模型训练和部署过程,同时优化内存使用和计算效率,具有强大的可扩展性,适用于多种硬件配置。
mimictest是一个专注于机器人操控策略开发和测试的简单环境,支持多GPU训练和快速模拟环境搭建,旨在简化机器人学习的过程,帮助开发者更高效地验证和优化控制策略。
AnyCores 是一个深度学习编译器,旨在通过优化深度神经网络的性能来降低计算成本,提供超过10倍的加速效果。
8个关于在多GPU上训练大型语言模型(或任意神经网络)的挑战性难题,旨在让读者亲身体验关键基本原理,并理解内存效率和计算流水线的目标。