由Amazon与Anthropic合作开发的AI超级计算机项目,基于AWS EC2 UltraCluster和Trainium2芯片构建,规模达Anthropic现有集群的五倍。旨在加速前沿AI模型训练与部署,解决模型准确性、训练效率和能源消耗等核心挑战,同时提供比Nvidia GPU集群低30-40%的成本优势。项目集成模型蒸馏、自动推理等创新工具,支持金融、法律、旅游等多领域AI应用。
Meta正在开发其首款自研AI训练芯片,属于Meta训练和推理加速器(MTIA)系列,专为训练大型AI模型(如Llama大语言模型)设计。该项目与台积电合作开发,比Nvidia通用GPU更节能,旨在降低基础设施成本并减少对外部供应商的依赖。目前处于测试阶段,若成功将用于训练下一代Llama模型。
Streaming DiLoCo 是一种用于分布式训练大语言模型(LLMs)的方法,旨在减少通信带宽和延迟。通过部分参数同步、通信与计算重叠以及梯度量化到4位精度,该方法在保持模型质量的同时显著降低了通信需求,特别适用于带宽有限的环境。
由 Hugging Face 分享的一份终极调参指南,旨在系统地讲解大语言模型训练的扩展、分布式训练技术的理解与实践,并弥补当前开源领域知识的零散问题。该指南详细介绍了在大规模GPU集群上训练大语言模型的各种技术和方法,包括显存使用、并行技术、性能评测等,并提供简化实现便于学习。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
Eureka Labs是一所全新的AI原生学校,采用“教师 + AI 共生”的模式,通过AI教学助手来扩展和指导人类专家编写的课程材料,为学生提供全面的学习体验。
LLM-Tuning 是一个专注于简化大语言模型(LLM)微调过程的工具,支持多种模型与数据集,旨在帮助用户轻松实现模型训练与评估。
qlora-pipe是一个开源脚本,旨在通过在四块4090 GPU上进行定制训练,以高效的方式训练大型语言模型(LLM)。它支持多块GPU的并行训练,并提供多种配置选项以优化训练流程,确保用户能够根据不同的需求灵活调整训练参数。
本项目研究了大语言模型中的epoch次数设置问题,深入探讨训练epoch数量对模型性能的影响,以及在不同数据集上epoch数量的变化如何影响训练的充分性和效果。
FATE-LLM是基于FederatedAI开发的联邦学习框架,支持大语言模型的分布式训练,旨在促进AI技术在保护知识产权和隐私的前提下的应用。该项目通过联邦学习架构,使得多方在不共享原始数据的情况下,能够协同训练出高效的AI模型,有效应对数据隐私和合规性挑战。
min-LLM是一个轻量级的框架,旨在通过最小化代码来简化大语言模型(LLM)的训练过程。它提供了一个高效的训练流程,支持快速原型开发,并且易于集成和扩展,适合研究人员和开发者使用。
LlamaIndex(原名GPT Index)是一个开源工具,专注于将大型语言模型(LLMs)与外部数据源集成,帮助开发者构建更强大的问答系统和知识库应用。它提供了一种结构化的方式来管理LLM的数据,支持多种数据源和索引策略,旨在提升LLM应用的开发效率和数据检索性能。
提出 RetNet 作为 LLM 的基础架构,同时实现训练并行性、低成本推理和良好性能。
Web LLM 是一个可以在浏览器中直接运行大型语言模型的工具,支持通过 WebGPU 加速。它支持多种大型语言模型,包括 Llama 2 7B/13B、Mistral 7B 和 WizadMath,并能够在设备内存为 64GB 的情况下运行 Llama 2 70B 模型。利用 WebGPU 提供更快、更流畅的模型运行体验,仅需约 6GB 的显存即可运行 Llama 7B 和 Vicuna-7B。
GTS引擎(GTS-Engine)是一款开箱即用且性能强大的自然语言理解引擎,聚焦于小样本任务,能够仅用小样本就能自动化生产NLP模型。
TinyGPT是一个基于picoGPT项目,从零开始用C++11实现的GPT-2推理框架,旨在为嵌入式系统和资源受限环境提供高效的文本生成和自然语言处理功能。
ColossalAI是一个开源的分布式AI大模型训练框架,旨在降低大规模AI大模型的训练成本和复杂度。它通过先进的并行计算技术,让开发者在有限硬件资源下也能高效训练超大规模大模型。支持多种并行策略、混合精度训练、内存优化等技术,广泛应用于大规模模型训练、科研实验和企业部署。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。