马斯克突然发布Grok-2！数学推理能力突出，攻克“9.9与9.11比大小”经典难题_模型_训练

图由网友使用Grok-2生成

出品｜搜狐科技

作者｜郑松毅

马斯克看来是不服谷歌抢风头，旗下公司xAI抓紧来凑热闹。

北京时间8月14日下午，xAI正式官宣Grok-2和Grok-2 mini两款AI模型（测试版）。

xAI直接揭秘，前一阵子出现在Lmsys大模型竞技场上的神秘模型“sus-column-r”就是Grok-2。

在xAI给出的大模型排行榜中，Grok-2的评分优于GPT-4o-mini和Claude 3.5 Sonnet。

从xAI内部测试结果来看，相较于上一代模型，Grok-2和Grok-2 mini在阅读理解、数学、编码、推理等方面表现都有显著改进。

值得一提的是，Grok-2在数学推理（MathVista）方面表现登顶测试榜首。

但细心网友不难发现，即便是Grok-2，在其他方面与前沿模型GPT-4o或Claude 3.5 Sonnet相比都稍显不足。这张图不得不说排版是费了心机（把GPT-4o和Claude 3.5 Sonnet安排得远远的）。

即便是这样的结果，马斯克还是对xAI的研发进度表示了肯定，“Grok推进速度如火箭。”

攻克经典难题

目前，Grok-2和Grok-2 mini在 X 平台处于测试阶段，X Premium和Premium+用户已经可以体验，模型将在本月晚些时候通过企业 API 的方式提供。

xAI表示，Grok-2的API将基于新的定制技术栈。

一方面是支持多区域推理部署，实现全球范围的低延迟访问。另一方面是增强安全功能。

模型刚发布不到半天，已有不少网友迫不及待玩了起来。

有人试了试，给前天马斯克和特朗普的公开对话配张图。

还有人试了试让特朗普和奥巴马一起在中国长城上吃烤肉。

不得不说，Grok-2生成图片的色彩饱和度还挺高，但图片细节处理仍有待改进（奥巴马的手为啥大一圈？）。

对于很火的“9.9和9.11比大小”的问题，难倒了GPT-4o，但没难住Grok-2（sus-column-r）。

意外收获是，经典的“strawberry”数“r”难题，也被Grok-2顺利攻克。

对xAI的偏爱

xAI 是由马斯克于 2023 年 7 月创立的一家公司，其目的是发展人工智能技术，构建安全的AI模型以帮助人类解决复杂的任务和挑战。

马斯克对xAI寄予厚望，甚至不惜牺牲特斯拉为xAI提供资源，以此帮助他实现在今年年底构建世界上最强大AI的目标。

xAI除了直接从特斯拉招募做软件研发的优秀员工，马斯克更是要求把预留给特斯拉的GPU转移到xAI。

“特斯拉收集的大量视觉数据可以作为xAI的训练资源。”马斯克说。

他在最近一次访谈中谈到，“追求深层次地理解事物是人工智能发展的目标，Grok也正在朝这个方向做出努力。

现在来看，Grok-2似乎只是小露锋芒，Grok-3才是马斯克憋的大招。

他透露，Grok-3正在孟菲斯数据中心同步训练推进中，大概会在3至4个月内完成训练，再进行微调和修错，希望能在12月前发布，Grok-3或将成为世界上最强大的AI大模型。

据悉，孟菲斯数据中心拥有全球最大的超算集群，10万块液冷H100助阵。从算力上来看，大约是OpenAI用于训练GPT4的25000块A100的20倍左右。返回搜狐，查看更多

责任编辑：