VPTQ(Vector Post-Training Quantization)是一种创新的向量后训练量化技术,由微软开发。它能够在无需重新训练的情况下,将大型模型(如70B和405B模型)压缩为1-2位,同时保持高精度和高效的推理性能。该技术利用矢量量化代替传统的基于标量的权重量化,使用查找表将向量压缩为索引,从而实现更高的准确度和吞吐量。