该项目利用2:4稀疏性模式,通过硬件加速的GPU稀疏性来优化Transformer模型的训练和推理过程。特别针对Squared-ReLU激活函数,该函数天然具有高稀疏性(84-98%),在不损失准确性的情况下,前向和后向传播中的前馈网络(FFN)计算速度提高高达1.3倍。项目通过自定义内核高效处理稀疏操作,并通过张量分割和令牌排列优化后向传播,展示了稀疏性在加速大型语言模型(LLM)中的关键潜力。
olmOCR 是一个端到端的 PDF 文档解析工具,结合视觉语言模型(VLM)和文档锚定技术,能够高效提取 PDF 文档中的结构化内容,如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型,显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架,能够高效处理大规模数据,并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计,能够保持自然阅读顺序,同时处理图形、手写文本和低质量扫描件。
ComfyUI-MultiGPU是一个实验性工具,旨在在单一ComfyUI工作流中支持多个GPU的使用。它通过非传统方式对内存管理进行补丁,提供模型加载新节点,并允许用户指定每个模型使用的GPU,从而优化资源利用和计算效率。
该项目由NVIDIA AI IOT开发,专注于优化YOLOv5的GPU性能,提升实时目标检测任务的速度和效率。
DeepEP是一个专门为MoE(Mixture of Experts)和专家并行设计的通信库,旨在通过优化GPU性能,实现低延迟和高效率的通信。它通过内核优化、低延迟RDMA内核和通信计算重叠等技术,显著提升了训练和推理速度,并最大化资源利用率。
Wan2GP是一款基于Wan2.1的阿里巴巴开源和先进的大规模视频生成模型,专为显存有限的GPU用户设计,让普通GPU也能高效运行视频生成任务。它优化了内存消耗,适配几乎所有消费级显卡,支持多种生成任务,包括文本转视频、图片转视频等,是显存有限用户的理想选择。
Megatron-LM是由NVIDIA开发的开源工具,专注于高效训练大规模语言模型。它利用优化的并行策略和计算设计,使开发者能够在多GPU环境中快速构建超大规模参数模型。该平台强调性能和可扩展性,代码清晰且社区反馈活跃,特别适合处理大规模语言模型的研究人员和企业,推动自然语言处理技术的边界。
DeepSeek-V3 / R1 推理系统是一个通过大规模跨节点专家并行(Expert Parallelism, EP)实现更高吞吐量和更低延迟的推理系统。该系统采用多机多卡的专家并行策略,通过增加 batch size 提高 GPU 矩阵乘法效率,并通过分散专家计算降低延迟。此外,系统还采用了计算通信重叠优化、负载均衡优化、双 batch 重叠策略以及针对不同阶段的负载均衡器设计,以进一步提升系统性能。
使用C语言加速的语言模型推理项目,旨在实现单个GPU单批次的硬件利用最大化,具有最小的实现和依赖。该项目通过高效的算法和实现方式,优化了GPU的性能,适合多种语言模型的应用场景。
KTransformers是由清华大学KVCache.AI团队与趋境科技联合开发的开源项目,专注于优化大型语言模型(LLM)的推理性能,特别是在资源受限的环境中高效运行LLM。该项目支持单GPU(24GB显存)或多GPU环境,支持DeepSeek-R1和V3的671B满血版模型,预处理速度最高可达286 tokens/s,推理生成速度最高可达14 tokens/s。KTransformers通过高级内核优化和放置/并行策略,提供高达3至28倍的加速效果,并支持Q4_K_M量化版本,最低仅需14GB显存和382GB内存。
Astra AI使得将任何应用和API与大型语言模型(LLM)进行功能调用的集成变得简单。我们会处理JSON模式和最终用户身份验证的设置。即使您的LLM没有针对功能调用进行微调,我们也可以提供代理集成的方法。
Navan.ai是一个无代码平台,允许开发者和企业在几分钟内构建和部署计算机视觉AI模型,节省高达85%的开发时间和成本。用户可以通过nStudio快速构建模型,通过nCloud将模型部署到云端,并获得推理API。此外,用户还可以选择使用预训练的视觉AI模型,如人脸检测等。
开源深度学习平台
FluidStack是一个全球数据中心网络的GPU云平台,提供超过50,000个GPU,支持AI和大语言模型(LLM)的训练。用户可以免费开始使用并无缝扩展。
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
Fine-Tuner AI是一款强大的工具,利用尖端的微调技术提升您的自然语言处理(NLP)模型性能。它可以在更少的数据下以极短的时间内实现更好的结果。用户只需将NLP模型和数据上传到平台,Fine-Tuner将应用其先进的微调算法,优化模型以提高性能。优化后的模型可以轻松集成回现有工作流程中。
Substrate AI推理平台是一个优化的API,用于执行多步AI程序,提供快速高效的执行。用户可以连接节点,使用优化的机器学习模型、内置存储、代码解释器和逻辑控制流,轻松创建无缝工作流。
Bisheng是一款领先的开源AI大模型应用开发平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。