Language Models Use Trigonometry to Do Addition论文 – LLM用三角函数实现加法运算
该项目研究大型语言模型(LLM)如何通过广义螺旋表示数字,并利用时钟算法执行加法运算。研究分析了GPT-J、Pythia-6.9B和Llama3.1-8B三个中型模型,发现它们将数字表示为广义螺旋(周期包括2、5、10和100),并通过注意力头和多层感知机(MLP)操作生成加法结果。研究还通过因果干预验证了这种表示和算法的重要性,为理解LLM的数学推理能力提供了新视角。