FasterTransformer是一个旨在提高Transformer模型速度和效率的工具,支持多种架构如BERT和GPT,提供高性能的推理和训练,且易于集成。它支持FP16和INT8量化技术,能够在NVIDIA GPU上实现高效的模型推理和快速训练,适合在生产环境中部署优化后的模型。
FasterTransformer是一个高度优化的基于Transformer的编码器和解码器组件,提供高效的推理和训练性能,支持多种Transformer模型,并兼容多种深度学习框架,灵活配置以满足不同需求。
为Google Cloud TPU优化的Transformers模型,提供高性能AI训练和推理接口,支持多种大规模语言模型。
EETQ是针对transformer模型的量化工具,使用Flash-Attention V2优化attention的推理性能,简单易用,只需一行代码即可适配您的PyTorch模型。
展示如何使用 TensorFlow 生态系统从 Transformers 构建视觉模型的机器学习管道,支持完整的 MLOps 流程,集成模型管理和监控功能。
Medusa使用多个解码头部,使大型语言模型的生成速度提升2倍。与传统的小模型生成选项加大模型验证的方式相比,Medusa无需额外的模型,可以与大模型同时训练和使用,特别适合分布式部署场景。
混合自回归线性核(Mixed Auto-Regressive Linear kernel),一个经过高度优化的FP16xINT4矩阵乘法核,用于LLM推理,可以在批量大小为16-32个token的情况下实现接近理想的约4倍加速。
提出 RetNet 作为 LLM 的基础架构,同时实现训练并行性、低成本推理和良好性能。
该项目提供了一个完整的管道,用于在消费级硬件上微调ChatGLM LLM,结合了LoRA(低秩适应)和RLHF(基于人类反馈的强化学习)技术,旨在提升ChatGLM的能力,使其类似于ChatGPT。
用Go语言编写的云原生AI网关,作为OpenAI的代理服务,可以创建具有速率限制、费用限制和生存时间限制的API密钥,实现细粒度的访问控制,支持多个大型语言模型,并简化LLM(Large Language Model)的运维操作。
FluxKits是一个包含Flux-mini和Flux-NPU的工具集,其中Flux-mini是一个3.2B参数的文生图模型,经过蒸馏自12B的Flux-dev模型,显著降低了硬件需求;而Flux-NPU则是支持在NPU设备上运行Flux模型的工具库。
One-YOLOv5 是一个基于 OneFlow 后端的 YOLOv5 实现,旨在提升目标检测模型的训练速度和效率,特别适用于资源受限的环境。它兼容 OneFlow 后端,优化了模型训练时间,支持多种数据集格式,并提供详细的性能分析和优化方法,帮助用户提高模型生产率。
一种称为LoLCATs的新方法,用于将现有的大型语言模型(如 Llama 和 Mistral)转换为具有亚quadratic时间复杂度的线性化版本,同时保持模型性能。
一个Mamba的最小化实现。Mamba是CMU和普林斯顿的研究成功。这种SSM架构在语言建模上与Transformers不相上下,而且还能线性扩展,同时具有5倍的推理吞吐量。