用LLM进行复杂推理的框架,采用先进的推理算法,将多步推理视为规划,并搜索最优的推理链,以实现'世界模型'和'奖励'的最佳平衡。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
AirLLM 可以让你的 70B 大型语言模型在单个 4GB GPU 卡上运行推理,或者让 405B Llama3.1 在 8G 的 GPU 卡上运行。
这个项目展示了如何借助MLX在Mac上运行微软的2.7B小语言模型Phi-2以及Mixtral 8x7B混合专家模型,支持在Apple M2 Ultra上进行高效的模型训练和推理,提供简化的模型权重下载和加载流程,同时兼容Python环境。
Termshark 是一款受 Wireshark 启发的 tshark 终端用户界面,旨在提供一个图形化的方式来捕获和分析网络流量,支持实时数据包分析、过滤和可视化,帮助用户更好地理解网络数据。
一个教育性的稀疏注意力机制实现库,专注于LLM推理的优化,提供多种注意力模式及其详细教程,旨在帮助用户理解和应用稀疏注意力技术。
EXO 是一个用于在日常设备上运行 AI 集群的分布式推理框架,采用 p2p 连接而不是主从架构。该项目旨在将本地异构设备联起来,以便运行大尺寸的AI模型,如Llama3.1 405B。用户可以通过简单的设置,将多种设备整合为一个强大的AI集群,进行机器学习和深度学习实验。
由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
ReGAL项目旨在通过重构现有程序,发现代码中可泛化的抽象结构,从而提升程序的可维护性和理解能力。
Imandra是一个推理即服务的平台,赋予AI逻辑推理能力,适用于构建大型语言模型的思维模型、正式验证论证和结果,以及可审计的逻辑推理。