一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
适用于端边云场景的AI推理应用开发框架,提供了基于Pipeline的并行执行流程,能帮助AI应用开发者较快的开发出高效、高性能,以及支持软硬协同优化的AI应用。
pytorch/ort是一个旨在使用ONNX Runtime加速PyTorch模型推理的工具,支持将PyTorch模型转换为ONNX格式,利用ONNX Runtime提升推理性能,并兼容多种硬件后端。该项目还支持动态计算图,简化模型部署流程,让用户能够更轻松地在不同平台上运行优化后的模型。
AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理,或者让 405B Llama3.1 在 8G 的 GPU 卡上运行。
这是一个精心策划的Rust工具、库和框架列表,旨在帮助开发者在大型语言模型(LLM)、GPT和人工智能(AI)领域进行工作。该项目提供了全面的Rust库集合,专为LLM和AI开发而设计,注重性能和效率,并且定期更新新工具和资源。
这是一个专为边缘设备设计的Transformer模型推理库,旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录,相较于最知名的实现速度快2倍,非常适合在资源受限的环境中使用。
TPI-LLM是一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
DeepCausality是一个高效的因果推理库,支持在复杂的多阶段因果模型上进行快速和确定性的上下文感知因果推理。
fastllm是一个纯C++开发的全平台大模型加速库,具有无第三方依赖的特性,当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度,并且能够在安卓设备上流畅运行ChatGLM-6B,同时支持CUDA进行计算加速。
该项目旨在使用Rust语言在CPU上运行大型语言模型的推理。它不仅实现了快速的推理速度,还能在低能耗的情况下提供高效的性能。适用于本地推理和Rust项目集成,适合研究新语言模型应用。