EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
该项目提供了一个关于大型语言模型推理的教程代码,涵盖了多种生成算法、元生成算法及高效元生成算法,旨在提高模型推理的效率和效果。用户可以通过该教程学习如何实施不同的算法,以优化文本生成和推理性能。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
Inferflow是一个高效且高度可配置的大型语言模型推理引擎,旨在优化推理性能,支持多种自定义配置,以满足特定需求。
该项目旨在使用Rust语言在CPU上运行大型语言模型的推理。它不仅实现了快速的推理速度,还能在低能耗的情况下提供高效的性能。适用于本地推理和Rust项目集成,适合研究新语言模型应用。
mm-cot是亚马逊开源的多模态链式思维(Multi-modal Chain of Thought)模型,旨在提升大语言模型在复杂任务中的表现。它支持多模态输入,包括文本和图像,并通过链式思维增强推理能力,特别针对复杂任务进行了优化的架构设计,方便研究人员和开发者进行二次开发。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
一个通过PyTorch从头开始训练Llama 2 LLM架构模型的项目,支持将权重保存到原始二进制文件并在简单的C文件中推断模型。