mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
Meta 发布的 Llama 3.1 1B和3B的官方量化版本,提供了更小的内存占用、更快的设备推理速度、准确性和便携性。
lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
Gooey.AI是一个提供低代码环境的平台,简化生成AI的使用,用户可以访问和利用最新的AI模型,构建和部署AI工作流,适合没有编码知识的用户。
用于 LLaMA 3 8B 参数版本的轻量级 CUDA C 语言实现的推理引擎,旨在在 Nvidia GPU 上进行高效的并行处理。该项目旨在充分利用 Nvidia GPU 的性能,以提供快速的模型推理,并易于集成到现有的机器学习工作流中。
diffusers-rs是一个基于Rust和Torch的Diffusers API,旨在提供高性能的图像生成和模型推理功能。它支持多种预训练模型,并提供易于扩展和自定义的架构,适合在机器学习工作流中使用。
BitNet是微软发布的1-bit LLM变体研究,支持在CPU上快速无损地推理1.58位模型。该项目通过将每个参数表示为三进制数 {-1, 0, 1},显著改善了时延、内存利用、吞吐量和能耗,能够在苹果M2等CPU上运行,适用于1.58位模型的无损推理。
这是一个新的简单替代方案,基于计算输入激活的权重大小和范数之间的逐元素乘积。
提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
通过蒸馏技术将复杂模型中的知识转移到更小的模型中,以便在资源受限的设备上有效运行AI模型。