埃隆·马斯克的人工智能初创公司xAI近日发布了升级版Grok 3大模型,并在直播活动中进行了演示。Grok 3在多项基准测试中击败了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude以及OpenAI的GPT-4(优化版)。马斯克在发布会上自信地称Grok 3为“地球上最聪明的人工智能”,并展示了其在数学、科学和编程等领域的卓越表现。
Grok 3的基准测试表现
根据官方公开的测试结果,Grok 3在包括AIME(评估模型在一系列数学问题上的表现)和GPQA(评估模型在博士级别的物理学、生物学和化学问题上的表现)等基准测试中,远超GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet等大模型。在大模型竞技场Chatbot Arena(LMSYS)测试中,Grok 3获得了140分的高分,超越了Gemini 2.0 Flash Thinking实验版本、ChatGPT-4o最新版本以及最近大火的DeepSeek R1。
用户反馈与质疑
尽管Grok 3在基准测试中表现优异,但有些用户在体验后对其能力产生了质疑。他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI应用研究主管Boris Power则对Grok团队在模型评估中的行为表示失望,指出其存在作弊和欺骗的动机。Boris Power提到,o3-mini在各项评估中均优于Grok 3。
实际测试结果
《每日经济新闻》记者在Grok 3发布后也亲自进行了测试。从最经典的基础问题开始:9.9和9.11谁大?Grok 3轻松拿下。然而,在逻辑思考和文字理解能力方面,Grok 3不如DeepSeek R1。例如,在回答“未来的某天,李同学在实验室制作神秘材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了神秘材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为原因是什么?”时,Grok 3没有答对。
数学与编程能力
在数学能力方面,Grok 3确实最好,但未拉开明显差距。例如,在回答“三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?”时,Grok 3只用了1分15秒就得出了答案,而O1使用了2分53秒。在编程能力方面,Grok 3险胜o1。例如,在模拟马斯克在发布会上展示的火星发射代码时,Grok 3在最终的轨道计算上表现优秀,但在细节和动画呈现上仍未达到完美。
结论
结合各项测试结果来看,Grok 3确实是世界顶尖的AI模型,尤其是凭借其超快的响应速度大大优于竞争对手。但更为深刻地分析下来,它的逻辑思考能力和部分专业领域的理解能力与最高水准的DeepSeek R1相比,仍存在一定差距。因此,马斯克关于“全世界最聪明人工智能”的说法,或许还需要一番商榷。
Grok 3带给我们的启示是,人工智能技术的进步不仅体现在计算速度上,更多的是在逻辑思维、理解和学习能力的全面提升。正如马斯克所追求的那样,未来的AI不仅应具备无限的速度,更应具备深入的智识和推理能力。