论文介绍了通过边缘修剪找到变压器电路的技术,旨在有效识别和分析变压器电路,从而提高模型的可解释性。该技术可以帮助研究人员和开发者更好地理解变压器模型的结构及其工作原理。
用于稳健弹道预报的可解释自感知神经网络,旨在提高神经网络对分布外数据的认知不确定性估计,以适应安全关键型应用,如自动驾驶汽车。
一个 Transformer 可视化交互式学习工具,通过输入文本实时观察各个组件如何处理,最终预测下一个 Token。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
nnsight包使得用户能够解释和操控深度学习模型的内部结构,支持多种深度学习框架,帮助研究和实验。
OpenAI改进了大规模训练稀疏自动编码器的方法,以提取可解释特征并理解语言模型的神经活动。