grps_trtllm是一个使用纯C++实现的高性能OpenAI LLM服务,结合了GPRS、TensorRT-LLM和Tokenizers.cpp技术。与vLLM相比,它在性能上具有显著优势,支持聊天、函数调用、AI代理、分布式多GPU推理、多模态能力以及Gradio聊天界面。