ModelScope是一个基于'模型即服务'(MaaS)理念的开源平台,整合了AI社区最先进的机器学习模型,覆盖计算机视觉(CV)、自然语言处理(NLP)、语音、跨模态和科学计算等多个领域。它提供统一的接口和实现,支持模型的推理、训练和评估,简化了模型在现实世界应用中的使用过程。平台公开了超过700个模型,支持从文本生成到图像处理等多种场景,并可与Hugging Face等社区集成扩展资源。
Qwen2.5是阿里巴巴开源的通义千问系列第二代AI模型,支持多种语言、代码和数学能力显著提升,上下文长度支持最高达到128K tokens。该模型提供了从0.5B到72B的不同规模版本,适用于各种应用场景。Qwen2.5在指令跟随、长文本生成、结构化数据理解等方面有显著改进,并且支持多达29种语言。
mistral_jax 是一个将 Mistral-7B 模型移植到 JAX 和 Equinox 框架的参考实现。该项目旨在利用 JAX 的高效计算和优化能力,以及 Equinox 的灵活模型构建功能,提供一种高性能、易于扩展的解决方案。适用于自然语言处理任务、模型推理、研究开发等多种场景。
llama-cli是一个用Go语言编写的自托管解决方案,提供简单的LLaMA/alpaca模型API和命令行界面(CLI)。它允许用户在本地环境中托管和交互LLaMA/alpaca模型,并支持将这些模型集成到自定义应用程序中进行推理。该项目以高性能和高效为目标,适合在各种环境中部署。
Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
llm.mojo是Andrjey Karpathy将大型语言模型(LLM)最小化代码移植到Mojo编程语言的版本,旨在提供高效的模型推理和简化的学习体验。
FasterTransformer是一个旨在提高Transformer模型速度和效率的工具,支持多种架构如BERT和GPT,提供高性能的推理和训练,且易于集成。它支持FP16和INT8量化技术,能够在NVIDIA GPU上实现高效的模型推理和快速训练,适合在生产环境中部署优化后的模型。
基于 MLX 框架的 Silicon LLM 训练和推理工具包,简化了在 Apple Silicon 上训练和运行大语言模型的过程,旨在为开发者提供高效、易用的工具,以应对资源有限的设备上的大语言模型需求。
Meta Lingua 是一个轻量级、高效且易于修改的大型语言模型(LLM)研究代码库,专为研究者设计,支持模型训练和推理。其核心特点是使用易于修改的 PyTorch 组件,方便研究者尝试新的架构、损失函数和数据集。Meta Lingua 提供端到端的训练、推理和评估功能,模块化设计使其具有高度可重用性和灵活性,能够快速迭代和验证新概念。
vLLM Endpoint | Serverless Worker是一个用于提供大型语言模型端点的RunPod工作模板,基于VLLM技术,支持高效的模型加载与推理,具有极强的扩展性,适合在云环境下快速部署。
miniLLMFlow是一个极简的LLM框架,仅用100行代码实现,旨在使大型语言模型能够进行自我编程。该框架提供了简洁易用的接口,并支持高效的模型训练和推理,适合研究和应用开发。
本笔记包括模型推理、Transformer 模型结构和 lightllm 框架代码分析的详细内容,旨在帮助读者深入理解和应用相关技术。
一个用Rust开发的本地LLM接口工具,支持多平台(Mac/Windows/Linux)的CPU和GPU运行。特色是提供了级联提示工作流(Cascading Prompt Workflow)系统,能将LLM的概率性输出转换为确定性信号,大幅提高输出可靠性。
微软推出的Phi-3CookBook是一个关于Microsoft开发的Phi-3模型的教程,提供了如何开始使用Phi-3模型的详细指南和示例,并指导用户在不同的硬件和平台上进行推理和微调。
LightLLM是一个基于Python的LLM(大型语言模型)推理和服务框架,以其轻量级设计、易于扩展和高速性能而闻名。它利用FasterTransformer、TGI、vLLM和FlashAttention等开源实现的优势,提供比Vllm更快的表现。
LLaMA.go是一个LLaMA模型的纯Go实现,类似于llama.cpp,但完全用Go编写。
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
WizModel 提供统一的 API,让用户可以轻松地进行机器学习模型推理,无需编写复杂代码,适合生产环境使用。用户可以通过演示界面体验模型,支持多种工具的直接 API 查询。
Petals是一个开源工具,旨在通过团队协作运行大型语言模型。用户可以加载模型的一小部分,与其他人合作以提供模型的其他部分,从而实现推理或微调。