OpenVLA是一个开源的视觉-语言-动作模型,旨在通过高效微调的方式支持多机器人控制,结合了先进的语言和视觉编码技术,能够在多种任务中表现出色,适用于广泛的机器人应用场景。
一个通过PyTorch从头开始训练Llama 2 LLM架构模型的项目,支持将权重保存到原始二进制文件并在简单的C文件中推断模型。
llama2.py是一个纯Python实现的Llama 2模型推理工具,具备单文件结构,便于快速部署,同时支持高效的内存管理和强大的可扩展性,适合满足定制化需求。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
基于TensorRT实现的Streaming-LLM技术,旨在支持LLM模型进行无限输入长度的推理,提供高效、实时的AI服务。
Inferflow是一个高效且高度可配置的大型语言模型(LLM)推理引擎,支持多种Transformer模型,用户无需编写源代码,只需通过简单修改配置文件即可进行服务,旨在提供高效的推理性能,适应不同需求。
arc24是一个致力于创建能解决从未见过的推理任务的AI系统项目。这是基于Kaggle ARC Prize 2024比赛的实现,采用CRISP-DM方法论,包含完整的训练脚本、数据处理工具和文档,旨在探索通用人工智能(AGI)领域的推理能力。
LangPort是一个开源的大型语言模型服务平台,旨在提供超快的LLM推理服务,支持Huggingface transformers及多种语言模型,具有易于扩展的特性。
MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
这是国内第一个真正的开源、可下载、可运行的 LLaMA2 模型,提供中文版 Llama2模型及中英文 SFT 数据集,兼容适配所有针对原版 llama-2-chat 模型的优化。
Navan.ai是一个无代码平台,允许开发者和企业在几分钟内构建和部署计算机视觉AI模型,节省高达85%的开发时间和成本。用户可以通过nStudio快速构建模型,通过nCloud将模型部署到云端,并获得推理API。此外,用户还可以选择使用预训练的视觉AI模型,如人脸检测等。
旨在探索一种新的实验性模型训练流程,以训练高性能的特定任务模型,将训练过程的复杂性抽象化,使从想法到性能优越的完全训练模型的过程尽可能简单。用户只需输入任务描述,系统将从头开始生成数据集,将其解析为正确格式,并微调LLaMA 2模型。
在Auto-GPT基础上的一个分支,增加了对本地运行llama模型的支持,该项目主要是一个概念验证,速度较慢,但有时会得到很不错的结果。
这本书为已经熟悉 C 或 C++ 编程的读者提供一个轻松的汇编语言编程入门,强调汇编语言并没有想象的那么可怕。
一个命令行工具,可以一条命令直接启动大模型前端、API、后端全家桶,包括Ollama, llama.cpp, vLLM, Open WebUI, Libre Chat, Dify等多个组件,支持一键部署。