mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型,支持多种 AI 模型架构,并提供模型优化工具和简化的部署过程。
Web LLM 是一个可以在浏览器中直接运行大型语言模型的工具,支持通过 WebGPU 加速。它支持多种大型语言模型,包括 Llama 2 7B/13B、Mistral 7B 和 WizadMath,并能够在设备内存为 64GB 的情况下运行 Llama 2 70B 模型。利用 WebGPU 提供更快、更流畅的模型运行体验,仅需约 6GB 的显存即可运行 Llama 7B 和 Vicuna-7B。
llama-node是一个基于Node.js的项目,旨在提供对LLaMA和Alpaca语言模型的支持。该项目允许用户在本地CPU上高效运行这些模型,适合个人计算机使用。它基于llama-rs构建,旨在促进AI技术的民主化,使更多开发者能够轻松访问和使用大语言模型。
TinyChatEngine是一个专为边缘计算设计的设备端大型语言模型推断库,可以在笔记本电脑、车载娱乐系统、机器人或飞船上运行,提供代码助手、办公应用和智能回复等服务,具有高效的推断性能和可扩展的架构。
Pocket LLM是一个平台,旨在使复杂的大语言模型和其他先进的人工智能技术对所有人都可访问。它提供定制化、私密的人工智能解决方案,这些解决方案在普通硬件上训练,具有超低延迟推理,消除了对GPU、TPU或定制ASIC的需求。用户可以在没有高级配置或GPU的情况下,仅使用CPU构建和部署数十亿参数的模型。
UMbreLLa是一个使大型语言模型在普通设备上高效运行的工具,通过独特的技术组合,使得70B级别的模型在RTX 4070Ti上能够达到类似人类阅读速度的性能,尤其擅长处理编程任务。
LM Studio 是一个强大的工具,能够让用户在本地发现、下载和运行各种大型语言模型(LLM),用户可以在自己的笔记本电脑上离线使用这些模型,提供了便捷的应用内聊天界面,支持与模型进行交互,同时用户还可以从 HuggingFace 存储库下载兼容的模型文件,并在应用程序主页上发现新的、值得注意的 LLM。
Wingman是一个聊天机器人,允许用户在个人电脑和Mac(无论是Intel还是Apple Silicon)上本地运行大型语言模型。它提供了一个易于使用的聊天界面,使用户能够无需编写代码或使用命令行即可使用本地模型。当前可用的首个测试版名为Rooster。
一个简单的 Python 包,可以更轻松地在非公开或敏感数据以及没有互联网连接的计算机上运行大型语言模型 (LLM)。它支持本地环境,确保数据安全,适用于多种应用场景。
dstack是一个开源工具,可以在任何云环境中简化大型语言模型(LLM)的开发。它使开发者能够利用开放的LLM,降低云成本,避免对供应商的锁定。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
react-llm是一个易于使用的无头React Hooks库,允许在浏览器中通过WebGPU运行大型语言模型(LLM)。只需调用useLLM(),即可在不离开浏览器的情况下使用Vicuna 13B,并支持自定义系统提示。
TPI-LLM是一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。
picollm是一个基于X-Bit量化的设备端大型语言模型(LLM)推理引擎,专为运行压缩的大型语言模型而优化。它提供跨平台、高准确性的SDK,支持本地运行以确保隐私安全,适合在资源受限的设备上使用。
TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的'Aha moment',并提供完整实验日志和开源代码,方便复现和学习。
一种高效在单个GPU设备上部署和运行多个微调大语言模型的框架,显著降低服务成本,支持动态加载不同的适配器模型,能根据请求实时加载必要的模型权重,不影响并发请求。
MLX Engine是一个开源项目,旨在利用Apple M系列芯片的硬件加速能力,以超快的速度和100%本地、离线的方式运行大型语言模型(LLM)。它能够在M3芯片上以约250 tok/秒的速度运行Llama 3.2 1B模型,始终以结构化JSON格式输出,支持通过代码或Chat UI与模型进行交互,并能同时运行多个模型,用户还可以从Hugging Face下载任何模型。
gigaGPT是一个用于训练具有数百亿参数的大型语言模型的代码库,仅有500多行代码。它受到Andrej Karpathy的nanoGPT启发,但专为Cerebras硬件优化,能够扩展到GPT-3规模的模型。gigaGPT旨在提供一个干净、高效和可用的代码库,而不是追求训练最先进的模型。