OmniServe是一个集成了QServe和LServe优化的统一LLM服务框架,旨在通过低位量化和系统协同设计提高大型语言模型服务的效率和性能。它支持多种模型,显著降低部署和运行成本,并加速推理速度。