Inferflow是一个高效且高度可配置的大型语言模型(LLM)推理引擎,支持多种Transformer模型,用户无需编写源代码,只需通过简单修改配置文件即可进行服务,旨在提供高效的推理性能,适应不同需求。
一个通过PyTorch从头开始训练Llama 2 LLM架构模型的项目,支持将权重保存到原始二进制文件并在简单的C文件中推断模型。
一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源
LLM微调中心,用于将各种大型语言模型进行微调,以适应个性化用例,提供丰富的微调脚本和最新研究成果,支持模型部署及自定义微调,旨在提高模型在特定数据集上的性能。
该项目证明可以将 LLMs 的工作负载分散到多个设备上并实现显著的加速,支持在低功耗设备上运行,兼容Llama 2 70B模型。
HyperDB是一个针对大规模语言模型(LLM)应用的超快本地向量数据库,具有高度优化的C++后端向量存储。它通过MKL BLAS实现硬件加速操作,并支持id和元数据等高级功能,旨在提升向量检索和管理的效率和性能。
stable-diffusion-webui的LLaMA版,让你可以通过一个Web界面和本机的LLaMA模型交互,提供本地版的ChatGPT体验。
nanotron是一个开源工具,旨在简化大型语言模型的训练过程,提供了一种高效的3D并行训练方法,从而更好地利用计算资源。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。