Grok 3大模型发布：马斯克称其为“地球上最聪明的人工智能”

0 0

埃隆·马斯克的人工智能初创公司xAI近日发布了升级版Grok 3大模型，并在直播活动中进行了演示。Grok 3在多项基准测试中击败了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude以及OpenAI的GPT-4（优化版）。马斯克在发布会上自信地称Grok 3为“地球上最聪明的人工智能”，并展示了其在数学、科学和编程等领域的卓越表现。

Grok 3的基准测试表现

根据官方公开的测试结果，Grok 3在包括AIME（评估模型在一系列数学问题上的表现）和GPQA（评估模型在博士级别的物理学、生物学和化学问题上的表现）等基准测试中，远超GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet等大模型。在大模型竞技场Chatbot Arena（LMSYS）测试中，Grok 3获得了140分的高分，超越了Gemini 2.0 Flash Thinking实验版本、ChatGPT-4o最新版本以及最近大火的DeepSeek R1。

Grok 3大模型发布：马斯克称其为“地球上最聪明的人工智能”

用户反馈与质疑

尽管Grok 3在基准测试中表现优异，但有些用户在体验后对其能力产生了质疑。他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI应用研究主管Boris Power则对Grok团队在模型评估中的行为表示失望，指出其存在作弊和欺骗的动机。Boris Power提到，o3-mini在各项评估中均优于Grok 3。

Grok 3大模型发布：马斯克称其为“地球上最聪明的人工智能”

实际测试结果

《每日经济新闻》记者在Grok 3发布后也亲自进行了测试。从最经典的基础问题开始：9.9和9.11谁大？Grok 3轻松拿下。然而，在逻辑思考和文字理解能力方面，Grok 3不如DeepSeek R1。例如，在回答“未来的某天，李同学在实验室制作神秘材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了神秘材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为原因是什么？”时，Grok 3没有答对。

数学与编程能力

在数学能力方面，Grok 3确实最好，但未拉开明显差距。例如，在回答“三个人打台球，两人对局一人观战，输的人下场换观战的人上场，如此往复，最终，A输了6局，B输了8局，C输了10局，问各赢多少局？”时，Grok 3只用了1分15秒就得出了答案，而O1使用了2分53秒。在编程能力方面，Grok 3险胜o1。例如，在模拟马斯克在发布会上展示的火星发射代码时，Grok 3在最终的轨道计算上表现优秀，但在细节和动画呈现上仍未达到完美。