模型量化

mlx-lm开源 – Apple硅片高效运行大语言模型的Python工具包

mlx-lm开源 – Apple硅片高效运行大语言模型的Python工具包

mlx-lm是专为Apple硅片（如M1/M2/M3）优化的Python包，支持在macOS上高效运行和微调大语言模型。它深度集成Hugging Face Hub，提供模型量化、分布式推理、长文本处理等高级功能，特别针对Mac用户优化性能。项目支持Mistral/Llama等主流模型，提供文本生成、交互式聊天、模型转换等核心功能，并可通过LoRA微调适配专业场景。

Apple硅片优化LoRA微调Python工具包大语言模型运行

NyunZero官网 – 快速适配和压缩视觉模型与LLM

NyunZero是一个连接用户基础设施的工具，旨在快速适配和压缩视觉模型以及大语言模型（LLMs）。用户可以在几次点击中加速对象检测模型，或获得与硬件兼容的快速量化LLMs，适应用户的数据需求。

NyunZero大语言模型压缩对象检测加速模型量化

AutoGGUF开源项目 – 自动化GGUF模型量化工具

AutoGGUF开源项目 – 自动化GGUF模型量化工具

AutoGGUF是一个自动化GGUF模型量化工具，提供友好的图形用户界面，利用llama.cpp库实现模型的高效量化。该工具支持多种后端管理，能够进行模型量化、参数配置以及资源监控等多种功能，旨在提升模型性能和资源利用率。

图形用户界面模型量化自动化GGUF模型量化工具资源监控

DeepSparse开源项目 – 强大的CPU优化推理框架

DeepSparse开源项目 – 强大的CPU优化推理框架

一个强大的框架，通过集成sparse kernel、量化、剪枝和注意力键/值的缓存，进一步优化了在CPU上进行的能力。

CPU优化推理框架模型稀疏化模型量化深度学习模型推理

LLMs Tool开源项目 – 大语言模型训练与测试工具

LLMs Tool开源项目 – 大语言模型训练与测试工具

一个基于HuggingFace开发的大语言模型训练、测试工具。支持各模型的webui、终端预测，低参数量及全参数模型训练和融合、量化。

HuggingFace大语言模型训练工具模型融合模型量化

llama.cpp开源项目 – 高效轻量的LLaMA模型C++实现

llama.cpp开源项目 – 高效轻量的LLaMA模型C++实现

llama.cpp是一个开源的C++实现项目，专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖，基于CPU运行，适合资源受限的环境。它支持跨多个设备的分布式推理，提供高性能的推理能力，并具备灵活的模型配置。llama.cpp还支持多种量化格式，极大降低模型运行所需的内存，并实现了高效的推理算法，能够在普通的CPU上提供快速的响应。

GGUF文件格式开源推理库模型量化跨设备推理

EET开源项目 – 高效易用的Transformer推理解决方案

EET开源项目 – 高效易用的Transformer推理解决方案

EET是一个针对大型NLP模型的可扩展推理解决方案，旨在提供高性能的推理支持，特别是针对Transformer结构的大模型，同时支持长序列的场景，易于集成和使用。

NLP模型PyTorch插件Transformer推理高性能推理解决方案

Yet Another Language Model开源项目 – 一个高性能的语言模型推理工具

Yet Another Language Model开源项目 – 一个高性能的语言模型推理工具

一个用C++/CUDA实现的大型语言模型（LLM）推理工具，不依赖额外的库，除了用于输入输出。该工具旨在提供高效的推理能力，支持加载和保存冻结的LLM权重，适合各种应用场景。

C++/CUDA实现LLM推理加载和保存LLM权重高性能语言模型推理工具

AiInfer开源项目 – 高效的C++ AI推理库

AiInfer开源项目 – 高效的C++ AI推理库

AiInfer是一个C++版的AI推理库，目前专门支持TensorRT模型的推理，旨在提供高性能和易用性。

C++ AI推理库TensorRT模型推理多线程推理硬件加速

lite_llama开源项目 – 轻量级推理框架，专为大型语言模型优化

lite_llama开源项目 – 轻量级推理框架，专为大型语言模型优化

lite_llama是一个轻量级推理框架，旨在优化大型语言模型的性能，提供高达3.4倍的推理加速，支持最新的模型和流式输出功能，基于Triton实现，适用于各种需要高效推理的应用场景。

Triton实现大型语言模型优化推理加速轻量级推理框架

vector-inference开源项目 – 高效LLM推理工具

vector-inference开源项目 – 高效LLM推理工具

高效LLM推理工具：在Slurm集群上使用vLLM进行高效大型语言模型（LLM）推理，简化了推理服务器的运行和管理，支持自定义配置以适应不同环境

Slurm集群vLLM推理服务器管理自定义配置

SpaceSerp – Powerful SERP API-实时搜索结果获取与监控工具

SpaceSerp 是一款强大的 API，能够实时提取 Google 搜索结果，监控品牌或产品提及，支持多种格式（JSON、CSV、HTML），并可从任何位置和设备收集数据。其系统基于先进的 AI 模型，具有高效、灵活的特点。

SEO分析品牌监控工具实时搜索结果获取市场调研工具

IT-Tools开源项目 – 专为开发人员打造的实用在线工具库

IT-Tools开源项目 – 专为开发人员打造的实用在线工具库

IT-Tools 是一个为开发人员提供的在线工具库，包含多种实用工具，如 Token 生成器、数据转换器、时间戳转换器、二维码生成器等，旨在提高开发效率和便利性。

Git备忘录Token生成器二维码生成器在线工具库

StreamingLLM开源项目 – 无缝处理无限文本的语言模型

StreamingLLM开源项目 – 无缝处理无限文本的语言模型

StreamingLLM 是一种语言模型，能够顺利处理无尽的文本而不会失去上下文信息流，从而实现与人工智能助手的深度对话和长文本总结。

StreamingLLM无限文本处理深度对话长文本总结

OmniBridge开源项目

OmniBridge开源项目

Omnibridge是一个开源项目，可以让用户通过一个平台来访问不同的AI模型，无需单独下载和安装每个模型，提高用户的工作效率，让用户更方便地使用AI技术。

AI开源项目开源项目

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

OpenAI兼容的API，用于TensorRT LLM triton backend，提供了与langchain集成的功能，支持高效推理和灵活后端配置。

Langchain集成OpenAI兼容APITensorRT优化LLM自定义推理任务

Video2x开源项目 – 无损放大视频和图像的工具

Video2x开源项目 – 无损放大视频和图像的工具

一款开源免费的无损放大视频和图像工具，使用多种超分辨率算法实现视频/GIF/图像的无损放大和提高帧速率。

图像处理开源软件无损放大工具视频处理

TrustCall开源项目 – 基于LLM的高效JSON操作工具

TrustCall开源项目 – 基于LLM的高效JSON操作工具

TrustCall 工具：基于 LangGraph 的强大工具调用库，旨在通过让 LLM（大型语言模型）生成 JSON 补丁操作来提高生成和修改复杂 JSON 结构的效率和准确性

JSON补丁操作LangGraph工具库LLM生成JSON工具数据结构处理

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3