2025年最强大的TPU优化推理引擎AI工具推荐

专为XLA设备优化的LLM推理引擎，针对TPU和GPU进行了吞吐量和内存优化，支持JAX和PyTorch模型，提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理，可用于Gemma等大模型的高效部署。

lite_llama是一个轻量级推理框架，旨在优化大型语言模型的性能，提供高达3.4倍的推理加速，支持最新的模型和流式输出功能，基于Triton实现，适用于各种需要高效推理的应用场景。

AiInfer是一个C++版的AI推理库，目前专门支持TensorRT模型的推理，旨在提供高性能和易用性。

rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎，提供高性能、低成本和用户友好的推理服务，帮助客户和开发人员定制适合其业务的推理服务，从而促进业务增长

Merlin是一种由和支持的新型MLLM，展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM（MLLMs）中，以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练（FPT）和预见性指令调优（FIT）技术。