北京时间 2 月 18 日,马斯克携 xAI 团队直播发布 Grok3。此前,相关信息的不断透露,加上马斯克的全力预热,让全球对 Grok3 的期待值拉满。一周前,马斯克评价 DeepSeek R1 时曾预告,xAI 将推出更优秀的模型。发布会上,Grok3 数据亮眼,在数学、科学和编程基准测试中超越主流模型。马斯克称,Grok3 未来会用于 SpaceX 火星任务计算,还预测三年内将实现诺奖级突破。Grok3 真能开启 AI 新纪元吗?
在 Grok3 发布后,有人迅速对最新的 Beta 版发起测试,抛出了那个向来被用来刁难大模型的经典问题:“9.11 与 9.9 哪个大?” 令人遗憾的是,即便 Gro3 自称为目前最聪明的大模型,在没有任何定语和标注辅助的情况下,依旧无法给出正确答案。
同样在海外也开展了不少类似的测试。测试者抛出诸如 “比萨斜塔上两个球哪个先落下” 这类基础问题,结果发现,Grok3 面对这些问题时,依旧难以招架。于是,网友们戏称其为 “天才不愿意回答简单问题”。
在 xAI 发布会直播期间,马斯克现场演示用 Grok3 分析他自称常玩的《流放之路 2》职业与升华效果。出人意料的是,Grok3 给出的答案大部分错误,而直播中的马斯克竟未察觉这一明显问题。因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。
不少在几周前就获得 Grok3 测试资格,以及在发布当天刚体验了几个小时的模型能力测试者,对 Grok3 当前的表现给出了相似结论:“Grok3 确实不错,但并没有比 R1 或 o1-Pro 更出色”。在 Grok3 发布的官方 PPT 中,展示其在大模型竞技场 Chatbot Arena 里 “遥遥领先”。然而,这背后存在一些 “小心机”,PPT 榜单纵轴仅列出 1400 - 1300 分段的排名,使得原本仅 1% 的测试结果差距被放大,看起来十分显著。但实际的模型跑分结果显示,Grok3 与 DeepSeek R1、GPT4.0 相比,差距不到 1 - 2%,这也与许多用户在实际测试中 “感觉并无明显差别” 的体验相符。
尽管 Grok3 在分数上超越了当前所有公开测试的模型,可这并未得到众人认可。早在 Grok2 时期,xAI 就曾因在榜单上 “刷分” 饱受争议,后来榜单对回答长度风格降权,Grok2 的分数大幅下滑,因此被业内人士诟病 【高分低能】。为了追求这看似领先的优势,马斯克付出了高昂代价。发布会上,马斯克近乎炫耀地称,用了超 10 万张(直播中表示使用 “超过 10 万” 张,实际近 20 万张)H100 训练 Grok3,总训练时长高达两亿小时。然而,有网友对比发现,使用 2000 张 H800 训练两个月的 DeepSeek V3,与得分 1402 分的 Grok3 在大模型竞技场榜单上的差距不到 100 分,可 Grok3 实际训练算力消耗却是 V3 的 263 倍。
Grok3 登顶 【世界最强】 后,不少人很快发现,其背后 “模型越大,性能越强” 的逻辑已出现明显边际效应。Grok2 虽被指 “高分低能”,但有 X(Twitter)平台海量高质量第一方数据作支撑。到 Grok3 训练时,xAI 和 OpenAI 一样,撞上了优质训练数据不足的 【天花板】,模型能力边际效应迅速显现。这些情况,Grok3 开发团队和马斯克肯定最清楚。所以马斯克常在社交媒体称,当前用户体验的只是测试版,完整版未来几个月推出。他还化身产品经理,让用户在评论区反馈使用问题。
不到一天,Grok3 的表现就给那些寄望于靠 “大力飞砖” 训练更强力大模型的后来者敲响了警钟。据微软公开信息推测,OpenAI 的 GPT4 参数达 1.8 万亿,相较 GPT3 提升超 10 倍,而传闻中的 GPT4.5 参数规模更大。有 Grok3 的前车之鉴,无论是 GPT4.5,还是其他打算继续 “烧钱” 扩充参数体积以提升模型性能的开发者,都不得不思考如何突破这近在眼前的发展瓶颈。
OpenAI 前首席科学家 Ilya Sutskever 去年 12 月那句 “我们所熟悉的预训练将会结束”,如今又被人们重新记起,大家试图从中探寻大模型训练的真正出路。当时,Ilya 就精准预见可用新数据即将枯竭,模型难以靠获取数据提升性能的困境,他将此比作化石燃料消耗,直言【如同石油是有限资源,互联网中人类生成的内容同样有限】。Sutskever 预测,下一代模型将具备 【真正的自主性】和 【类似人脑】 的推理能力。与当前预训练模型依赖内容匹配不同,未来 AI 系统能像人脑 “思维” 一样,逐步学习并建立解决问题的方法。
人类精通一门学科,借助基本专业书籍即可,AI 大模型却需学习海量数据才能入门,换个问法就可能无法理解基础问题,智能提升有限,就像 Grok3 连一些基础问题都答不对。
尽管如此,若 Grok3 真能揭示 “预训练模型即将走到尽头”,那对行业而言,仍具有重要的启发意义 。