Overthinking 是一个系统评估框架,用于自动评估大语言模型中的过度思考行为。它通过分析模型是否过度依赖内部推理而非与环境互动,识别三种过度思考模式:'分析瘫痪'、'鲁莽行动'和'过早脱离',并提供量化评分,帮助提升模型性能约30%。