Universal Sparse Autoencoder (USAE)论文 – 跨模型概念对齐框架
Universal Sparse Autoencoder (USAE) 是一个创新框架,旨在帮助研究人员理解不同深度神经网络(如 DinoV2、SigLIP、ViT)共享的概念。它通过训练一个共享的稀疏自编码器,学习一个通用的概念空间,从而实现跨模型的概念对齐。USAE 在视觉模型上验证了其有效性,能够发现从低级(如颜色、纹理)到高级(如物体、组合)的通用概念。该框架的引入对于缓解模型风险、探索创新架构以及满足监管合规性具有重要意义。