该研究将稀疏自编码器(SAE)应用于随机初始化的Transformer(参数从高斯分布中独立同分布采样),发现其对随机和训练后的Transformer具有相似的解释能力。这一发现通过开源自动解释性管道定量确认,且在不同模型规模和层级上表现一致。研究质疑SAE作为机制可解释性工具的有效性,并强调零模型基准测试的重要性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型