跨平台机器学习模型部署

RTen开源项目 – 高性能跨平台神经网络推理引擎

RTen开源项目 – 高性能跨平台神经网络推理引擎

一个用Rust编写的轻量神经网络推理引擎，能将ONNX格式的机器学习模型高效运行在各种平台上，特别适合需要高性能和跨平台支持的场景。

Rust编写的ONNX支持跨平台机器学习模型部署高性能神经网络推理引擎

ModelBox开源项目 – 高效AI推理应用开发框架

ModelBox开源项目 – 高效AI推理应用开发框架

适用于端边云场景的AI推理应用开发框架，提供了基于Pipeline的并行执行流程，能帮助AI应用开发者较快的开发出高效、高性能，以及支持软硬协同优化的AI应用。

AI推理应用开发框架Pipeline并行执行流程软硬协同优化高性能AI应用

pytorch/ort开源项目 – 加速PyTorch模型的推理

pytorch/ort开源项目 – 加速PyTorch模型的推理

pytorch/ort是一个旨在使用ONNX Runtime加速PyTorch模型推理的工具，支持将PyTorch模型转换为ONNX格式，利用ONNX Runtime提升推理性能，并兼容多种硬件后端。该项目还支持动态计算图，简化模型部署流程，让用户能够更轻松地在不同平台上运行优化后的模型。

ONNX RuntimePyTorch模型推理加速工具动态计算图模型转换

AirLLM开源项目 – 低内存下运行大型语言模型

AirLLM开源项目 – 低内存下运行大型语言模型

AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理，或者让 405B Llama3.1 在 8G 的 GPU 卡上运行。

GPU内存优化Transformer架构低内存大型语言模型推理

awesome-rust-llm开源项目 – Rust工具和库的集合，专注于LLM和AI

awesome-rust-llm开源项目 – Rust工具和库的集合，专注于LLM和AI

这是一个精心策划的Rust工具、库和框架列表，旨在帮助开发者在大型语言模型（LLM）、GPT和人工智能（AI）领域进行工作。该项目提供了全面的Rust库集合，专为LLM和AI开发而设计，注重性能和效率，并且定期更新新工具和资源。

AI模型训练GPT框架LLM开发Rust工具库

Useful Transformers开源项目 – 高效的Transformer推理库

Useful Transformers开源项目 – 高效的Transformer推理库

这是一个专为边缘设备设计的Transformer模型推理库，旨在实现低成本、低能耗的处理。它能够以30倍的实时速度运行tiny.en Whisper模型进行语音转录，相较于最知名的实现速度快2倍，非常适合在资源受限的环境中使用。

Transformer模型低能耗处理语音转录边缘设备推理库

TPI-LLM开源项目 – 边缘设备上的高效语言模型

TPI-LLM开源项目 – 边缘设备上的高效语言模型

TPI-LLM是一款高性能的边缘设备语言模型推理系统，能够在资源有限的设备上运行大型语言模型，保护用户隐私，减少延迟。

大规模语言模型优化边缘设备语言模型推理系统隐私保护AI应用

Kokoro-FastAPI开源项目 – 基于Docker的文本到语音模型部署

Kokoro-FastAPI开源项目 – 基于Docker的文本到语音模型部署

Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目，专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速，提供自动分割和拼接功能，并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署，适用于需要高效、多语言支持的语音合成场景。

Docker部署FastAPINVIDIA GPU加速ONNX推理

DeepCausality开源项目 – 超几何计算因果性库

DeepCausality开源项目 – 超几何计算因果性库

DeepCausality是一个高效的因果推理库，支持在复杂的多阶段因果模型上进行快速和确定性的上下文感知因果推理。

Rust项目集成上下文感知因果推理因果推理库多阶段因果推理

fastllm开源项目 – 全平台高性能大模型加速库

fastllm开源项目 – 全平台高性能大模型加速库

fastllm是一个纯C++开发的全平台大模型加速库，具有无第三方依赖的特性，当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度，并且能够在安卓设备上流畅运行ChatGLM-6B，同时支持CUDA进行计算加速。

C++开发ChatGLM-6B支持CUDA加速大模型加速库

llm开源项目 – 在CPU上高效运行大型语言模型

llm开源项目 – 在CPU上高效运行大型语言模型

该项目旨在使用Rust语言在CPU上运行大型语言模型的推理。它不仅实现了快速的推理速度，还能在低能耗的情况下提供高效的性能。适用于本地推理和Rust项目集成，适合研究新语言模型应用。

CPU高效推理GGML格式支持Rust语言模型推理低能耗AI模型

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3