OpenVINO是Intel推出的开源工具包,旨在优化深度学习模型的推理性能,特别适用于边缘设备和嵌入式系统。它通过提供高效的推理引擎,加速在CPU、GPU、FPGA和VPU等多种硬件平台上运行的AI应用,显著提高推理速度和资源利用效率。
PocketFlow是一个自动模型压缩(AutoMC)框架,旨在开发更小、更快的AI应用。它支持多种压缩技术,如剪枝、量化和蒸馏,并集成了TensorFlow和PyTorch等流行的深度学习框架。该框架能够在边缘设备上高效部署,并允许根据不同用例定制压缩策略。
TensorRT Model Optimizer 是一个集成了最先进模型优化技术的统一库,包括量化和稀疏化等技术。它通过压缩深度学习模型,为下游部署框架如 TensorRT-LLM 或 TensorRT 提供支持,以优化在 NVIDIA GPU 上的推理速度。
KTransformers 通过使用Intel AMX指令集优化,显著提升了AI任务的运行速度,尤其在运行DeepSeek-R1时,速度提升达28倍,相较于llama.cpp,提供了极佳的性能表现。
开源深度学习编译器堆栈,专为CPU、GPU和专业加速器设计,支持简化和高性能的GPU内核编写。
Sparse-Marlin是一个优化工具,专为4bit量化权重的2:4稀疏性推理核设计,旨在提升深度学习模型的计算效率和存储效率,适用于各种深度学习应用。
赤兔量化注意力:专注于量化注意力机制的高效 GPU 实现库,旨在加速长序列数据的处理速度,并且与 Long-Context-Attention 库无缝集成
Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
ULLME是一个统一的框架,旨在通过生成增强学习优化大型语言模型的嵌入,支持双向注意力机制以及多种微调策略,帮助提升模型的性能和效果。
Predibase是一个低代码AI平台,使工程师和数据科学家能够轻松构建、优化和部署最先进的模型,从线性回归到大型语言模型,只需几行代码。它还提供了一种声明式方式,帮助工程师快速调优和服务任何开源机器学习模型或大型语言模型,并在私人云中托管先进基础设施。
收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。此项目涵盖了LLMs的基本原理、Transformer架构、注意力机制的详细讲解,以及预训练与微调的核心知识点,附带详细解答和代码示例,旨在帮助求职者全面掌握相关知识。
OneDiff是一个用于加速扩散模型的工具,提供了一种新的免训练、几乎无损的范式,显著提升模型的迭代速度。
该论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。