针对 LiteRT 模型的高级后训练量化工具,旨在帮助开发者优化资源密集型模型(如 GenAI 模型)以在边缘设备上实现最佳性能。该工具支持灵活的后训练量化,专为提高边缘设备的运行效率而设计,适用于需要减少模型大小和计算需求的应用场景。
Meta 发布的 Llama 3.1 1B和3B的官方量化版本,提供了更小的内存占用、更快的设备推理速度、准确性和便携性。
MeZO是一个通过正向传递实现语言模型微调的工具,无需反向传播,极大地简化了训练过程,同时支持多种预训练语言模型,提升了训练效率和资源利用率。
本项目探讨了一种名为‘模型融合(blending)’的方法,通过整合多个较小的对话人工智能模型,以实现与单一大模型相媲美或更优的性能,避免计算需求激增,适用于中等规模模型的协同融合。
QA-LoRA: 语言大模型的量化感知低秩适应。旨在量化和适应之间存在的不平衡自由度,通过组内操作符增加量化自由度,减少适应自由度,易于实施且性能显著提升。
支持ONNX模型量化的开源Python库,提供流行的模型压缩技术,如SmoothQuant和权重量化,适用于Intel硬件和流行的大型语言模型(LLM)。