DeepEP开源项目 – 优化GPU通信的高效库

DeepEP是一个专门为MoE（Mixture of Experts）和专家并行设计的通信库，旨在通过优化GPU性能，实现低延迟和高效率的通信。它通过内核优化、低延迟RDMA内核和通信计算重叠等技术，显著提升了训练和推理速度，并最大化资源利用率。

DeepEP的特点:

1. 内核优化，显著提升训练和推理速度
2. 低延迟RDMA内核，确保高效通信
3. 通信计算重叠，最大化资源利用率

DeepEP的功能:

1. 用于MoE模型中的专家并行通信
2. 优化GPU性能，提升训练效率
3. 在AI领域实现低延迟、高带宽的通信
4. 开箱即用，简化部署流程

相关导航

Tencent-Hunyuan-Large开源项目 – 腾讯推出的大型MoE模型

Hunyuan-Large是腾讯推出的大型MoE（Mixture of Experts）模型，拥有3890亿参数和520亿激活参数，是业界目前最大的开源Transformer基础MoE模型，专注于自然语言处理和长文本理解。

DeepSeek-V3 / R1 推理系统官网 – 高效能大规模推理系统

DeepSeek-V3 / R1 推理系统是一个通过大规模跨节点专家并行（Expert Parallelism, EP）实现更高吞吐量和更低延迟的推理系统。该系统采用多机多卡的专家并行策略，通过增加 batch size 提高 GPU 矩阵乘法效率，并通过分散专家计算降低延迟。此外，系统还采用了计算通信重叠优化、负载均衡优化、双 batch 重叠策略以及针对不同阶段的负载均衡器设计，以进一步提升系统性能。

YOLOV5 GPU optimization sample开源项目 – 优化GPU性能的YOLOv5实现

该项目由NVIDIA AI IOT开发，专注于优化YOLOv5的GPU性能，提升实时目标检测任务的速度和效率。

Wan2GP开源项目 – 让普通GPU高效生成视频

Wan2GP是一款基于Wan2.1的阿里巴巴开源和先进的大规模视频生成模型，专为显存有限的GPU用户设计，让普通GPU也能高效运行视频生成任务。它优化了内存消耗，适配几乎所有消费级显卡，支持多种生成任务，包括文本转视频、图片转视频等，是显存有限用户的理想选择。

ComfyUI-MultiGPU开源项目 – 多GPU支持工具

ComfyUI-MultiGPU是一个实验性工具，旨在在单一ComfyUI工作流中支持多个GPU的使用。它通过非传统方式对内存管理进行补丁，提供模型加载新节点，并允许用户指定每个模型使用的GPU，从而优化资源利用和计算效率。

2:4 Activation Sparsity Accelerating Transformer Inference and Training论文 – 加速Transformer训练和推理的稀疏性技术

该项目利用2:4稀疏性模式，通过硬件加速的GPU稀疏性来优化Transformer模型的训练和推理过程。特别针对Squared-ReLU激活函数，该函数天然具有高稀疏性（84-98%），在不损失准确性的情况下，前向和后向传播中的前馈网络（FFN）计算速度提高高达1.3倍。项目通过自定义内核高效处理稀疏操作，并通过张量分割和令牌排列优化后向传播，展示了稀疏性在加速大型语言模型（LLM）中的关键潜力。

olmOCR官网 – 高效提取PDF结构化内容

olmOCR 是一个端到端的 PDF 文档解析工具，结合视觉语言模型（VLM）和文档锚定技术，能够高效提取 PDF 文档中的结构化内容，如章节、表格、列表和公式。它通过在大规模数据集上微调一个 7B 参数的 VLM 模型，显著提高了内容提取的准确性和处理效率。推理管道基于 SGLang 和 vLLM 框架，能够高效处理大规模数据，并通过优化硬件利用和推理效率降低成本。该项目特别针对 PDF 文档的多样性格式和视觉布局设计，能够保持自然阅读顺序，同时处理图形、手写文本和低质量扫描件。

calm开源项目 – 高效的语言模型推理项目

使用C语言加速的语言模型推理项目，旨在实现单个GPU单批次的硬件利用最大化，具有最小的实现和依赖。该项目通过高效的算法和实现方式，优化了GPU的性能，适合多种语言模型的应用场景。

Megatron-LM开源项目 – 高效训练大规模语言模型的开源框架

Megatron-LM是由NVIDIA开发的开源工具，专注于高效训练大规模语言模型。它利用优化的并行策略和计算设计，使开发者能够在多GPU环境中快速构建超大规模参数模型。该平台强调性能和可扩展性，代码清晰且社区反馈活跃，特别适合处理大规模语言模型的研究人员和企业，推动自然语言处理技术的边界。

MaaS Platform官网 – 企业级AI模型部署平台

MaaS Platform 是一种新型人工智能服务平台，旨在通过 API、SaaS 或其他形式将预训练和优化的 AI 模型部署到企业端，并提供给最终用户或公司使用。平台集成了多种开源大模型，如 Llama、Baichuan、Yi、Qwen、AIGC 等，支持从模型选择到部署的全流程开发，涵盖文本、图像、音视频等多模态模型，并提供私有化部署以确保数据安全。

LLM-eval-survey开源项目 – 大型语言模型评估资源集合

这是一个与大型语言模型评估相关的论文和资源集合，旨在为研究人员和从业者提供全面的参考资料，定期更新新发现和资源。

delta开源项目 – Rust编写的高可读性git diff工具

delta是一个用Rust编写的git diff工具，旨在替代git默认的diff，提供更好的可读性和功能。它通过高亮显示新增、删除和修改的行，使得代码差异一目了然，并支持多种文件类型的差异比较，用户还可以自定义颜色和样式选项，集成了git的命令行工具，支持分页和导航功能，极大地提升了用户的使用体验。