GPT-4.5：AI情商与知识量的飞跃，但成本与推理能力仍是挑战

0 0

GPT-4.5：情商与知识量的双重突破

2025年2月27日，OpenAI正式发布了其最新的人工智能模型GPT-4.5。作为OpenAI历史上规模最大的语言模型，GPT-4.5在情商（EQ）、事实性问答和软件开发能力上展现了显著的提升。然而，尽管其在知识量和情感理解方面取得了突破，GPT-4.5也面临着高昂的运行成本和推理能力不足的挑战。

GPT-4.5：AI情商与知识量的飞跃，但成本与推理能力仍是挑战

知识量与准确性的飞跃

GPT-4.5的最大特点之一是其庞大的知识量和更高的准确性。根据OpenAI的官方数据，GPT-4.5在“SimpleQA”基准测试中的准确率达到了62.5%，相较于前代GPT-4o的38.2%有了显著提升。同时，其幻觉率（即生成虚假信息的概率）从61.8%大幅降低至37.1%。这意味着GPT-4.5能够提供更可靠、更准确的回答，尤其在需要广泛知识支持的领域，如多语言理解、编码和一般知识问答中表现优异。

GPT-4.5：AI情商与知识量的飞跃，但成本与推理能力仍是挑战

情商的提升：更自然的对话体验

GPT-4.5的另一大亮点是其情商（EQ）的提升。OpenAI表示，GPT-4.5能够更细腻地理解人类的意图和情感，提供更自然、温情的对话体验。例如，在处理“工作与家务的平衡”这类情感问题时，GPT-4.5能够像朋友或心理咨询师一样，通过对话引导用户表达情感，而非仅仅提供机械式的解决方案。这种能力使其在创意写作、艺术设计等领域具有广泛的应用潜力。

高昂的计算成本与推理能力的局限

尽管GPT-4.5在知识量和情商上取得了显著进步，但其高昂的计算成本和推理能力的不足仍是主要挑战。GPT-4.5的API使用成本高达输入每百万令牌75美元，输出每百万令牌150美元，是GPT-4o的30倍。此外，GPT-4.5在需要复杂推理的领域，如科学和数学问题中，表现不如专为推理设计的模型。例如，在“GPQA”科学基准测试中，GPT-4.5的得分仅为71.4%，远低于推理模型o3-mini的79.7%。