专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
AiInfer是一个C++版的AI推理库,目前专门支持TensorRT模型的推理,旨在提供高性能和易用性。
rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎,提供高性能、低成本和用户友好的推理服务,帮助客户和开发人员定制适合其业务的推理服务,从而促进业务增长
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。