Caldera是一种后训练压缩方法,通过低秩、低精度分解技术来表示大型语言模型的权重矩阵。该方法在少于2.5比特/参数的极致压缩下,性能超越现有技术,并支持低秩适应性微调,针对特定任务进一步优化。Caldera提供灵活的精度设置,可针对不同组件调整量化精度,以平衡性能和压缩率。