IPEX-LLM开源项目 – 加速本地大语言模型推理和微调

IPEX-LLM 是一个专为在 Intel Xeon 和 Arc GPU 系统上运行大型语言模型（如 DeepSeek-R1-671B-Q4_K_M）而设计的项目。它支持多种模型格式和量化技术，提供便携式部署方案，并优化性能以充分利用硬件资源。此外，IPEX-LLM 还支持多语言文档，包括中文，帮助用户快速上手和解决问题。

IPEX-LLM的特点:

1. 支持在 Intel Xeon 和 Arc GPU 系统上运行大型语言模型
2. 提供便携式部署方案，简化模型部署流程
3. 优化性能，充分利用硬件资源
4. 支持多种模型格式和量化技术
5. 提供多语言文档支持，包括中文
6. 支持70+种模型，涵盖LLaMA、Mistral、ChatGLM等
7. 提供低比特（FP8/FP6/INT4）加速，性能飞跃
8. 无缝对接HuggingFace、LangChain等热门框架
9. 可在Intel XPU（如本地PC的iGPU和NPU，离散GPU如Arc、Flex和Max）上运行

IPEX-LLM的功能:

1. 在 Xeon + Arc GPU 系统上运行 DeepSeek-R1-671B-Q4_K_M 模型
2. 使用便携式部署方案快速部署模型
3. 通过优化配置提升模型推理性能
4. 参考多语言文档进行快速上手和问题排查
5. 本地推理和微调LLM模型
6. 与llama.cpp、Ollama等工具集成使用
7. 在HuggingFace、LangChain等框架中快速部署

相关导航

flash-attention开源项目 – 基于FlashAttention的高效Transformer实现

flash-attention是一个基于FlashAttention优化的Transformer实现，其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍，显著提升了训练效率，同时优化了内存使用，并支持多种硬件加速。

Redis arXiv Search开源项目 – 基于Redis的向量搜索演示

该项目是一个向量搜索的演示应用，使用了arXiv论文数据集作为数据源，集成了HuggingFace和OpenAI的模型，基于FastAPI和React构建前端和后端，并使用Redis作为高性能的内存向量数据库。该项目展示了如何利用Redis的向量相似性搜索功能进行文档搜索和检索，适用于构建基于向量的搜索应用。

MosaicML官网 – 专注于模型训练与微调的公司

MosaicML是一家专注于模型训练和微调的公司，发布了一系列新的大型语言模型(LLM)，其中包括专为故事创作设计的模型，旨在支持文学创作和儿童教育。

Lit-GPT开源项目 – 可定制的开源大型语言模型实现

Lit-GPT是一个基于nanoGPT的开源大型语言模型的可定制实现，支持多种先进技术，如Flash Attention 2、4-bit和8-bit量化、LoRA和LLaMA-Adapter微调以及预训练。该项目采用Apache 2.0许可证，支持Llama2、Mistral和Mixtral等模型，旨在提供灵活且高效的模型定制和优化方案。

Dolomite Engine开源项目 – 超优化的大型语言模型训练库

Dolomite Engine是一款用于预训练和微调大型语言模型的超优化库，集成了多项关键创新，包括模型架构、微调方法和系统优化。它旨在提高大型语言模型的训练效率和效果，支持多种模型架构，优化微调过程，并提供系统性能的显著提升。

Chat with MLX开源项目 – 与本地数据进行聊天分析的开源项目

一个开源项目，允许用户在 MacOS 上与本地数据进行聊天对话，帮助总结或分析信息，支持多个开源大语言模型。

Byzer-LLM开源项目 – 全生命周期的 LLM 解决方案

基于 Ray 的 LLM 全生命周期解决方案，包括预训练、微调、部署和服务，支持 Python/SQL API，基于 Ray，易于扩展

ChatLM-mini-Chinese开源项目 – 中文对话的小型生成模型

ChatLM-mini-Chinese是一个中文对话0.2B小模型，旨在整理生成式语言模型的训练流程，包括数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等。

源2.0开源项目 – 新一代基础语言大模型

源2.0是浪潮信息发布的新一代基础语言大模型，开源了102B、51B和2B三个模型版本。该模型在源1.0的基础上，利用更多样的高质量预训练数据和指令微调数据集，增强了在语义、数学、推理、代码、知识等方面的理解能力。提供了预训练、微调、推理服务的相关脚本，支持多种部署方式，包括Hugging Face、TensorRT-LLM、FastChat等框架。

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

OpenAI兼容的API，用于TensorRT LLM triton backend，提供了与langchain集成的功能，支持高效推理和灵活后端配置。

DeepSeek开源项目 – 高效的C++深度学习推理引擎

DeepSeek是一个用纯C++实现的深度学习推理引擎，专为低配CPU设备优化，支持多种数据精度，包括F8E5M2、FP16、FP32等。它具有小巧的体积和高效的性能，支持在多卡系统上运行，适合资源受限的环境。

RasaGPT开源项目 – 无头LLM聊天机器人平台

RasaGPT是首个基于Rasa和Langchain的无头LLM聊天机器人平台，旨在通过整合多种技术（如Rasa, FastAPI, Langchain, LlamaIndex等）来简化聊天机器人的开发和使用，提供开箱即用的解决方案，支持文档上传和训练管道，适用于开发者和企业用户。

Terracotta官网 – 快速直观的LLM实验平台

Terracotta是一个平台，使用户能够快速直观地实验大型语言模型（LLMs），支持模型管理、微调和评估。用户可以安全存储数据，针对分类和文本生成微调模型，并进行定性与定量比较。

mini_qwen开源项目 – 1B参数中英文大语言模型

mini_qwen是一个从头开始训练的1B参数的大型语言模型(LLM)项目，包括预训练(PT)、微调(SFT)和直接偏好优化(DPO)3个部分。该项目基于Qwen2.5-0.5B-Instruct模型，通过扩充模型隐藏状态层数、隐藏状态维度和注意力头数，增加参数量到1B，并进行参数随机初始化。支持中英文，预训练和微调仅需要12G显存，直接偏好优化仅需要14G显存。使用flash_attention_2进行加速，使用deepspeed在6张H800上进行训练，探究了尺度定律(scaling law)、复读机现象与微调阶段的知识注入。

PengChengStarling开源项目 – 多语言语音识别解决方案

PengChengStarling是基于icefall项目的多语言语音识别（ASR）模型，旨在一站式解决多语言语音识别难题。该项目支持多种语言，提供从数据处理到模型部署的完整流程，模型体积小且推理速度快，适用于多种应用场景。