StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
Logic-of-Thought(LoT)旨在通过将逻辑注入上下文,提升大型语言模型的推理能力。该项目利用命题逻辑生成扩展的逻辑信息,并与现有的提示方法无缝集成,显著提升了多种提示方法在复杂任务中的性能。
Inferflow是一个高效且高度可配置的大型语言模型推理引擎,旨在优化推理性能,支持多种自定义配置,以满足特定需求。
该项目旨在使用Rust语言在CPU上运行大型语言模型的推理。它不仅实现了快速的推理速度,还能在低能耗的情况下提供高效的性能。适用于本地推理和Rust项目集成,适合研究新语言模型应用。
DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱,支持多种数据类型的假量化,旨在提高模型的推理速度和效率。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
一个开源工具包,用于预训练、微调和部署大型语言模型(LLMs)和多模态大语言模型。该工具包基于LLaMA-Adapter,提供更高级的功能,支持社区贡献与扩展。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
这是一个新的简单替代方案,基于计算输入激活的权重大小和范数之间的逐元素乘积。
一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式