AxBench是由Stanford NLP团队开发的Python库,专注于评估大型语言模型(LLM)可解释性方法的实用性。它提供16K概念训练数据,支持10多种可解释性方法,并通过LLM-in-the-loop训练降低数据生成成本至0.01美元/概念。项目覆盖数据生成、模型训练、推理和评估全流程,适合学术研究和工业应用场景。