一个用于在互联网上高效、全球分布式训练人工智能模型的框架,具备弹性设备网络、异步分布式检查点、实时检查点恢复等特性,旨在优化全球范围内的AI模型训练过程
ColossalAI是一个开源的分布式AI大模型训练框架,旨在降低大规模AI大模型的训练成本和复杂度。它通过先进的并行计算技术,让开发者在有限硬件资源下也能高效训练超大规模大模型。支持多种并行策略、混合精度训练、内存优化等技术,广泛应用于大规模模型训练、科研实验和企业部署。
OneFlow 是一个分布式深度学习框架,旨在使每位算法工程师能够训练超大模型,例如 GPT,克服高训练成本和大模型落地难的问题。它提供易用且高效的动态图和静态图训练接口,支持多种硬件设备,简化模型部署和训练过程。
一个高效的深度学习训练框架,旨在简化模型训练和优化过程,提供了多种预训练模型和工具,适用于计算机视觉任务。
EXO 是一个用于在日常设备上运行 AI 集群的分布式推理框架,采用 p2p 连接而不是主从架构。该项目旨在将本地异构设备联起来,以便运行大尺寸的AI模型,如Llama3.1 405B。用户可以通过简单的设置,将多种设备整合为一个强大的AI集群,进行机器学习和深度学习实验。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
这个开源项目的功能是对类似 #ChatGPT# 的模型进行简单、快速且经济实惠的 RLHF 训练。
激活信标可以将LLM的原始激活压缩成更紧凑的形式,从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文,同时保留LLM在短上下文上的原始能力,显著提高了长上下文语言建模和理解任务的表现。