LLM-Engines是一个统一的大规模语言模型推理引擎,支持多种开源模型(如VLLM、SGLang、Together)和商业模型(如OpenAI、Mistral、Claude),通过不同引擎验证推理的准确性,旨在提供高效和灵活的语言处理解决方案。
vLLM是一个高吞吐量且内存高效的推理和服务引擎,专为大规模语言模型设计,具备优化的模型加载与推理速度,能够与多种硬件加速器兼容。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
一个用C++/CUDA实现的大型语言模型(LLM)推理工具,不依赖额外的库,除了用于输入输出。该工具旨在提供高效的推理能力,支持加载和保存冻结的LLM权重,适合各种应用场景。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
ORGANA是一个灵活且人性化的机器人系统,旨在通过自然语言与化学家进行交互,使用大型语言模型进行推理和规划,提供及时的报告和分析结果,具备3D视觉感知能力,能够准确操作实验对象和监控实验进展,同时通过并行执行实验提高实验效率。
一个处理流式生成的JSON的库,能够从首个token开始解码,非常适合时间敏感的应用。