TensorRT Model Optimizer 是一个集成了最先进模型优化技术的统一库,包括量化和稀疏化等技术。它通过压缩深度学习模型,为下游部署框架如 TensorRT-LLM 或 TensorRT 提供支持,以优化在 NVIDIA GPU 上的推理速度。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型