由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
该项目汇集了精选的扩散模型推理论文,涵盖了多种技术,包括采样、缓存以及多GPU支持,为研究者和开发者提供了丰富的学习和应用资源。
NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱,支持多种数据类型的假量化,旨在提高模型的推理速度和效率。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
libuv是一个跨平台的网络事件框架,旨在提供异步I/O和事件驱动的支持,同时包含一个高效的线程池模块,适用于高性能网络应用的开发。
一个自托管的 GitHub Copilot,GitHub Copilot 的开源/本地替代方案,旨在提供灵活的开发体验。它可以在本地运行,无需依赖外部数据库或云服务,同时具备可视化界面和强大的API接口,方便集成到现有开发环境中。
用LLM进行复杂推理的框架,采用先进的推理算法,将多步推理视为规划,并搜索最优的推理链,以实现'世界模型'和'奖励'的最佳平衡。
Llama2.jl是一个用Julia编写的库,旨在提供与Llama2.c相同的功能,结合高性能和易用性,方便用户进行数据处理和数学运算。
GPT Core用于创建和训练先进的大型语言模型(LLM),着重强调了其快速性能,可以在仅20分钟消费级GeForce RTX™ 4090上将自定义的1.23亿参数LLM预训练到约3.5的验证损失。
RightTyper是一个Python编程助手,能够快速生成函数参数和返回值的类型注解,帮助提升代码运行效率,并且几乎不增加内存负担。该工具特别适合与pytest结合使用,以增强测试代码的可读性和可靠性。
ChunkDot矩阵计算库:多线程矩阵乘法和余弦相似度计算工具,适用于密集和稀疏矩阵,通过分块项目矩阵表示(嵌入)和使用Numba加速计算,快速计算大量项目中最相似的K个项目
Backtrack Sampler是一个易于理解的框架,用于大型语言模型采样,能够撤销和修改生成的Token,适合实验和研究用途。