TinyZero是一个以不到30美元的成本,利用veRL强化学习训练框架,在qwen2.5模型基础上进行训练的项目,能够复现DeepSeek R1论文中的'Aha moment',并提供完整实验日志和开源代码,方便复现和学习。
picollm是一个基于X-Bit量化的设备端大型语言模型(LLM)推理引擎,专为运行压缩的大型语言模型而优化。它提供跨平台、高准确性的SDK,支持本地运行以确保隐私安全,适合在资源受限的设备上使用。
一个开源工具包,用于预训练、微调和部署大型语言模型(LLMs)和多模态大语言模型。该工具包基于LLaMA-Adapter,提供更高级的功能,支持社区贡献与扩展。
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。通过 Int4 量化技术,MiniCPM 实现了在手机端的部署能力,提供与人类说话速度相当的流式输出速度。MiniCPM 在中文、数学和编程能力方面表现优异,超越了 Llama2-13B、MPT-30B 和 Falcon-40B 等模型。此外,基于 MiniCPM-2B 开发的多模态模型 MiniCPM-V 在同规模模型中表现最佳,支持高效参数微调和全参数微调,二次开发成本较低。
gigaGPT是一个用于训练具有数百亿参数的大型语言模型的代码库,仅有500多行代码。它受到Andrej Karpathy的nanoGPT启发,但专为Cerebras硬件优化,能够扩展到GPT-3规模的模型。gigaGPT旨在提供一个干净、高效和可用的代码库,而不是追求训练最先进的模型。
MLX Engine是一个开源项目,旨在利用Apple M系列芯片的硬件加速能力,以超快的速度和100%本地、离线的方式运行大型语言模型(LLM)。它能够在M3芯片上以约250 tok/秒的速度运行Llama 3.2 1B模型,始终以结构化JSON格式输出,支持通过代码或Chat UI与模型进行交互,并能同时运行多个模型,用户还可以从Hugging Face下载任何模型。
mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型,支持多种 AI 模型架构,并提供模型优化工具和简化的部署过程。
Meta 发布的 Llama 3.1 1B和3B的官方量化版本,提供了更小的内存占用、更快的设备推理速度、准确性和便携性。
一个创新的药物分子设计AI工具,通过扩散模型学习分子的3D结构、形状、静电特性和药效团的联合分布。