小模型构建

reasoning-teacher开源项目 – 利用大模型蒸馏构建小模型

reasoning-teacher开源项目 – 利用大模型蒸馏构建小模型

该项目演示了如何利用大模型进行蒸馏来构建小模型，从而在某些领域实现比大型模型更强的推理效果。

大模型蒸馏小模型构建成本降低推理能力提升

QA-CLIP开源项目 – 中文CLIP模型，性能卓越

QA-CLIP开源项目 – 中文CLIP模型，性能卓越

QA-CLIP是一个支持中文文本和图像的多模态理解的模型，具有最先进的性能和准确性，能够用于多种下游任务，如图像分类、文本生成等，且易于集成和使用。

中文多模态理解模型内容检索图像分类图像标注

ChatGLM-LoRA-RLHF-PyTorch开源项目 – 基于LoRA和RLHF的ChatGLM微调

ChatGLM-LoRA-RLHF-PyTorch开源项目 – 基于LoRA和RLHF的ChatGLM微调

该项目提供了一个完整的管道，用于在消费级硬件上微调ChatGLM LLM，结合了LoRA（低秩适应）和RLHF（基于人类反馈的强化学习）技术，旨在提升ChatGLM的能力，使其类似于ChatGPT。

ChatGLM微调LoRAPyTorchRLHF

Multimodal-Open-O1开源项目 – 提升本地推理模型的准确性

Multimodal-Open-O1开源项目 – 提升本地推理模型的准确性

Multimodal-Open-O1是一款本地运行的推理模型增强工具，旨在通过一种新的提示式方法提高本地推理模型的准确性，能够在本地环境中创建类似OpenAI-o1的推理链，支持多模态输入，适用于各种任务的推理需求。

多模态输入支持提示式方法本地推理模型增强工具

RoRF开源项目 – 基于随机森林的智能模型路由框架

RoRF开源项目 – 基于随机森林的智能模型路由框架

RoRF路由森林是一个基于随机森林的模型路由框架，能够通过智能选择不同模型来降低成本，同时保持或提升性能，特别适用于大规模语言模型（LLM）.

大规模语言模型性能提升成本降低模型选择

SparQ Attention-增强语言大模型效率的技术

是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改，可以显著减少注意力内存需求，而不会影响准确性。

SparQ Attention内存带宽需求减少语言大模型运行效率优化

LLaMA-O1开源项目 – 大型推理模型框架

LLaMA-O1开源项目 – 大型推理模型框架

LLaMA-O1 是一个大型推理模型框架，专为 PyTorch 和 HuggingFace 设计，支持训练、推理和评估。它集成了蒙特卡洛树搜索（MCTS）、自我对弈强化学习、PPO 和类似 AlphaGo Zero 的双策略范式，适用于大型语言模型的开发和应用。

AlphaGo ZeroHuggingFaceLLaMA-O1PPO

llama2.cpp开源项目 – C++ 版本的 Llama 2 推理库

llama2.cpp开源项目 – C++ 版本的 Llama 2 推理库

llama2.cpp 是一个高效的推理库，专为 C++ 开发，支持 CPU 计算，并且未来将支持 CUDA 和 AVX512，旨在提供高效的 Llama 2 模型推理体验，方便集成到各种 C++ 项目中。

AVX512优化C++推理库CPU计算CUDA支持

LLaMA-Factory开源项目 – 高效微调大语言模型的工具

LLaMA-Factory开源项目 – 高效微调大语言模型的工具

LLaMA-Factory 是一个易于使用的 WebUI 框架，旨在高效微调 100 多种大语言模型（LLM）。它支持多种模型和训练方法，包括 LLaMA、Mistral、Qwen 等，并集成了多种微调方法如 LoRA、QLoRA、PPO、DPO 等。LLaMA-Factory 提供了高级算法如 GaLore、BAdam、DoRA、LongLoRA 等，以及实用技巧如 flashattention、RoPE 缩放等，以优化微调效果。此外，它还支持实验管理工具如 LlamaBoard、TensorBoard、Wandb，以及高效的推理接口如 Gradio UI 和 OpenAI 风格的 API。

LLaMA-Factory实验管理工具微调大型语言模型快速推理

Awesome LLM Inference开源项目 – 强大的LLM推理工具集

Awesome LLM Inference开源项目 – 强大的LLM推理工具集

这是一个关于出色LLM推理的小集合，包含文献、博客和文档以及代码，支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。

FlashAttentionLLM推理工具集PagedAttentionSmoothQuant

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3