Stanford NLP团队开发

AxBench是由Stanford NLP团队开发的Python库，专注于评估大型语言模型（LLM）可解释性方法的实用性。它提供16K概念训练数据，支持10多种可解释性方法，并通过LLM-in-the-loop训练降低数据生成成本至0.01美元/概念。项目覆盖数据生成、模型训练、推理和评估全流程，适合学术研究和工业应用场景。

Stanford NLP团队开发大型语言模型可解释性方法评估LLM可解释性的Python工具

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。