iFormer是一种专为移动应用设计的视觉模型,通过结合卷积网络和Transformer架构,实现了低延迟和高精度的双重突破。它在iPhone 13上延迟仅1.10毫秒,Top-1准确率可达80.4%,适用于目标检测和语义分割等多种计算机视觉任务。官方版本的最小模型参数为20M,ImageNet-1K的Top-1准确率达83.4%,但可能存在移动优化的特定版本(如2.9M参数版本)。