Inferflow-高效可配置的大型语言模型推理引擎

EET开源项目 – 高效易用的Transformer推理解决方案

EET是一个针对大型NLP模型的可扩展推理解决方案，旨在提供高性能的推理支持，特别是针对Transformer结构的大模型，同时支持长序列的场景，易于集成和使用。

StreamingLLM开源项目 – 无缝处理无限文本的语言模型

StreamingLLM 是一种语言模型，能够顺利处理无尽的文本而不会失去上下文信息流，从而实现与人工智能助手的深度对话和长文本总结。

lm.rs开源项目 – Rust语言模型推理工具

一个用Rust语言编写的极简语言模型（LLM）推理工具，能够在没有机器学习库的情况下，在CPU上进行完整的语言模型推理，支持多种大型语言模型并具备多模态功能。

CivRealm开源项目 – 学习和推理环境的决策智能体

CivRealm是一个基于开源游戏Freeciv-web的学习和推理环境，提供了基于强化学习和语言模型的决策智能体接口，以及训练和评估工具和基线模型，旨在成为复杂环境中学习和推理代理的测试平台。

OpenR开源项目 – 开源框架，提升语言模型推理能力

一个开源框架，专为大型语言模型提供高级推理能力，支持数据生成、策略训练和多种搜索策略，让机器更聪明地理解和解决问题。

Xorbits Inference开源项目 – 强大的分布式推理框架

Xorbits Inference（Xinference）是一个功能全面的分布式推理框架，支持大语言模型（LLM）、语音识别模型、多模态模型等各种模型的推理。它适用于研究者、开发者和数据科学家，支持一键部署自定义模型或内置开源模型，可在笔记本电脑、千节点集群及边缘设备上运行。

TheB.AI官网 – 多样化的先进AI模型平台

TheB.AI提供多种前沿模型，包括语言模型和图像模型，通过易于使用的界面和统一的API接口访问，支持个性化定制，提升AI体验。

验证链减少LLM的幻觉-通过深思熟虑纠正LLM错误反应

开发一种方法，使大型语言模型（LLM）能够经过深思熟虑的推理过程，纠正错误的反应，从而减少产生幻觉（不真实信息）的可能性。该项目旨在通过分步推理和验证机制，提升LLM的准确性和可靠性。

LLaMA-O1开源项目 – 大型推理模型框架

LLaMA-O1 是一个大型推理模型框架，专为 PyTorch 和 HuggingFace 设计，支持训练、推理和评估。它集成了蒙特卡洛树搜索（MCTS）、自我对弈强化学习、PPO 和类似 AlphaGo Zero 的双策略范式，适用于大型语言模型的开发和应用。

SD4J (Stable Diffusion in Java)开源项目 – Java中的稳定扩散推理工具

基于ONNX Runtime的Java的Stable Deffusion管线，具有GUI界面和负面文本支持，展示了如何在Java中使用ONNX Runtime进行推理，并提供了性能优化的最佳实践

colima开源项目 – 在Mac上简化容器和K8s管理

colima 是一个在mac运行容器运行时（docker和containerd）和k8s的工具，支持 m1芯片。它基于Lima (Linux Machine on Mac) 二次开发，旨在为开发者提供一个更简便的容器和Kubernetes管理解决方案。

Drive Like A Human开源项目 – 重新定义自动驾驶的智能交互

用大型语言模型重新思考自动驾驶，使用GPT-3.5作为默认的大型语言模型(LLM)，介绍了LLM在驾驶场景中的闭环交互能力以及通过记忆能提升性能的方法

engshell开源项目 – 一个多功能的开发者终端环境

engshell是一个多功能的终端环境，结合了命令行界面的强大与用户友好的特性，适合开发者使用。

GPT4Company开源项目 – 安全接入OpenAI的请求转发器

GPT4Company是一个请求转发器，用户可以通过配置关键词和API地址，以安全地接入OpenAI，防止敏感信息泄露。该工具提供灵活的设置和多种关键词选项，满足不同公司的需求，同时提供警告信息，以提醒用户潜在的泄密风险。

ChatGPT-WEB开源项目 – chatGPT私有化部署

ChatGPT-WEB是一个支持私有化部署的聊天生成模型，旨在保护用户隐私并提供多种功能扩展，适合在本地服务器上使用。

MaxDiffusion开源项目 – 高效AI扩散模型实现

MaxDiffusion是一个专注于AI扩散模型的高效实现与优化的项目，旨在为大规模训练和推理提供强大的支持。它支持多种主流扩散模型，并通过优化的TPU和GPU加速显著提升推理速度。此外，项目还引入了Flux LoRA等创新功能，进一步提高了推理效率。

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

OpenAI兼容的API，用于TensorRT LLM triton backend，提供了与langchain集成的功能，支持高效推理和灵活后端配置。

HiP Attention开源 – 高效无训练长文本注意力机制

HiP Attention 是一种无需额外训练的后训练注意力机制，专为提升长文本处理效率设计。它通过分层剪枝技术实现子二次方复杂度，支持单GPU处理300万token的上下文长度，速度提升7.24倍，显著降低计算成本。项目基于OpenAI Triton实现，可无缝集成现有模型架构（如SGlang），适用于资源受限环境下的超长序列处理。

vector-inference开源项目 – 高效LLM推理工具

高效LLM推理工具：在Slurm集群上使用vLLM进行高效大型语言模型（LLM）推理，简化了推理服务器的运行和管理，支持自定义配置以适应不同环境

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

r1-ktransformers-guide开源项目 – 让DeepSeek-R1模型快速运行

该项目旨在提升DeepSeek-R1 GGUF模型在KTransformers上的运行效率，提供近2倍的性能提升，并支持多GPU和内存映射，适配不同硬件，优化配置丰富，便于实现高效推理。

xLSTM-7B开源项目 – 扩展LSTM模型，高效推理

xLSTM-7B是一种扩展的LSTM模型架构，通过引入Exponential Gating和Matrix Memory等技术，克服了传统LSTM的局限性。相较于Transformer架构，xLSTM-7B在推理速度和参数效率方面表现出显著优势，适用于多种序列数据处理任务。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

diffusion-rs开源项目 – 极速推理工具

扩散模型的极速推理工具，能快速处理复杂的图像生成任务，提升模型运行效率

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

LongSpec开源项目 – 高效解码长文本场景

长文本场景下的高效解码方案，让大语言模型推理不再卡顿。

rational_kat_cu开源项目 – CUDA加速的KAT有理函数

rational_kat_cu 是一个用于 Kolmogorov–Arnold Transformers (KAT) 的 CUDA C++ 扩展项目，专注于实现 group rational function，并支持高效的训练和推理。通过 CUDA 加速，该项目显著提升了 KAT 模型的性能，特别适用于需要高性能计算的场景。

Inferflow-高效可配置的大型语言模型推理引擎

相关导航

暂无评论