Transformer Debugger (TDB) 是 OpenAI 对齐团队开发的一种工具,旨在支持对小体量语言模型的特定行为进行检查。它结合了自动可解释性技术与稀疏自动编码器,帮助人们分析 Transformer 模型的内部结构,进行 debug 工作。