Grok-3 的发布与突破
马斯克的AI初创公司xAI近期发布了Grok-3大模型,这一模型被称为“地球上最聪明的人工智能”。Grok-3不仅在数学、科学问答和编码等多项基准测试中刷新了SOTA(State of the Art),还在大模型竞技场Chatbot Arena中取得了1402分的Elo评分,位列最高。
推理能力的提升
Grok-3支持推理能力,解锁了测试时计算(test-time compute)能力。其推理模型Grok-3 Reasoning Beta和Grok-3 mini Reasoning在多项基准测试中表现优异,大幅超越了其他推理模型。例如,在AIME 2025数学竞赛中,Grok-3 Reasoning Beta和Grok-3 mini Reasoning分别拿下了93和90分。
智能体「深度搜索」模式
Grok-3还具备了强大的智能体能力,上线了首个智能体「深度搜索」(Deep Search)模式。该模式能够在互联网上进行更深入的搜索,提供详细、合理的答案。例如,用户可以通过深度搜索智能体查询下一次星舰发射的时间,模型会展示搜索和推理的过程,并给出具体答案。
GPT-4o 的表现与口碑
尽管Grok-3在多项测试中表现优异,GPT-4o的口碑也在悄然翻转。GPT-4o刚发布时显得又大又贵,官方强调情商看起来很虚,但几天后,夸他情商高的用户确实多了起来。奥尔特曼本曼也发表感言,表示高品位测试者有时是对的。
另类榜单的登顶
GPT-4o还登顶了一个另类榜单,类似大模型狼人杀。在比赛中,GPT-4o在结盟、欺骗、背叛、表现得不具威胁性等方面都是第一,且比人类优秀。
华人科学家的重要地位
在xAI的创始团队中,有多位华人科学家,如Tony (Yuhuai Wu)和Jimmy Ba。他们在全球AI研究中的重要地位不容忽视,为Grok-3的成功发布做出了巨大贡献。
创始团队的贡献
xAI的创始团队中,华人科学家占据了重要位置。他们不仅在技术研发上做出了卓越贡献,还在全球AI研究领域树立了榜样。
总结
Grok-3的发布标志着AI大模型竞争的新篇章。其在推理能力和智能体模式上的突破,展示了AI技术的巨大潜力。与此同时,GPT-4o的表现和口碑翻转,也揭示了AI大模型竞争的复杂性和多样性。华人科学家在全球AI研究中的重要地位,更是为这一领域的发展注入了新的活力。
模型 | 基准测试成绩 | Elo评分 | 推理能力 | 智能体模式 |
---|---|---|---|---|
Grok-3 | 刷新SOTA | 1402 | 支持 | 深度搜索 |
GPT-4o | 口碑翻转 | – | – | – |
通过以上对比,我们可以看到Grok-3和GPT-4o在AI大模型竞争中的不同表现和特点。未来,随着技术的不断进步,AI大模型的竞争将更加激烈,我们期待更多突破性的成果。