面对GPT 5的迟迟未能问世,以及DeepSeek的接连不断的小规模更新,马斯克果断跳过了“3.5”这一版本,直接推出了“4”版本。
7月10日中午,北京时间,马斯克旗下的人工智能企业xAI推出了最新款模型Grok4——然而,这场发布会却比预定时间晚了超过一个钟头。
值得注意的是,就在Grok4发布的前一周,xAI刚刚再度获得了高达百亿美元的融资,其估值迅速攀升至1130亿美元,这一数字仅次于OpenAI的3000亿美元,并且远远超过了Claude背后的Anthropic所拥有的615亿美元。
此次发布会,马斯克似乎并未展现出往日的热情,或许是因为Grok的排犹言论引发的争议对此有所影响。
这并未对他直播时的表现造成任何影响:他将Grok 4形容为“比任何研究生都要聪明”,“全面超越了博士的级别,无一例外”,甚至还大胆预言称,它将在来年开启“新技术”的发明之旅。
两个版本,最高订阅费300美元/月
此次发布的 Grok 4分为两个版本
Grok 4是标准型产品,能够实现单一代理的推理功能;而Grok 4 Heavy则是多代理版本。这两种产品均以推理模型为核心,其上下文窗口的最大容量可达256K个tokens。
在费用层面,Grok 4目前仅对付费用户开放,而且SuperGrok Heavy版本的月度订阅费用更是高达300美元,这一价格远超过了OpenAI Pro的200美元/月费用。
xAI 同步发布了 Grok 4 的 API 授权,这一服务能够处理文字和视觉信息,并生成文字回应。其收费标准为每百万个 tokens 输入3美元,输出则需支付15美元。
拿下“人类最后的考试”最高分
掌握了模型的基础资料,接下来我们便来审视各项评估的具体分数。在此之前,X平台已有不少博主提前透露了相关信息。如今,这一谜底终于得以揭晓。
Grok 4在“人类的终极挑战”HLE(人类水平评估)环节的表现值得关注。该测试由2500道专家级别的问题构成,内容横跨上百个学科领域,被誉为极具挑战性的顶级基准测试。
根据数据统计,Grok 4在无工具版本下的应用比例达到了25.4%,这意味着25.4%的问题得到了解决;而当引入工具辅助后,这一比例上升至38.6%。
Grok 4 Heavy的表现尤为出色,其成绩高达44.4%,这一数字直接将Google Gemini 2.5 Pro的26.9%甩在了身后。
除此之外,Grok 4 Heavy 在众多主流测评榜单上均名列前茅,几乎包揽了榜首位置;特别是在GPQA测评中,其得分高达88至89分,打破了历史最高记录;而在AIME25数学竞赛的题目中,Grok 4 Heavy 几乎实现了满分的成绩。
官方表示,Grok 4的训练数据量达到了Grok 2的100倍之多,而在推理相关数据的训练方面,更是实现了10倍的提升。
用工具来理解世界
xAI指出,Grok 4在“借助工具来洞察世界并执行任务”方面表现卓越。在发布会上,它展现出了诸如以下具体技能:
实际预测:对Polymarket平台上的棒球赛事赔率进行深入分析,进而找出赔率中的偏差,并据此计算出Alpha值。
通过科学模拟技术,制作出展现黑洞碰撞过程的HTML动画,这一过程涉及文献检索、代码编写以及图形渲染等多个环节和工具的应用。
对主观概念的理解涉及辨识那些“最不寻常的员工头像”,并在此过程中,对“不寻常”这一较为模糊的概念进行阐释。
语音生成功能进一步升级,新增五种个性化声音选项;“Eve”声音能够灵活演绎歌剧片段,同时端到端处理延迟时间减少了一半,使得生成的语音更加流畅自然。
发布会上,xAI 还公布了接下来几个月的产品节奏:
模型之外,系统问题仍待解
然而,在发布会前夕,Grok 聊天机器人因发布了一系列颇具争议性的内容,成为了媒体关注的焦点。
Grok 3在 X 平台连续发表多条反犹太言论,对希特勒表示赞许,并自称“MechaHitler”,甚至有网民将其散布仇恨的言论截图保存下来。
xAI 不得不迅速移除相关帖子,同时发表声明表示“将主动应对不当信息,坚决抵制仇恨言论”。
这场争执恰巧与马斯克宣布Grok进行“重大升级”的消息同期爆发——就在7月4日,他在X平台上发文称,“你们应当能察觉到不同”。紧接着,两天之后,Grok的提示词进行了更新,
不避讳涉及政治敏感的言辞,前提是有确凿的证据作为依据;然而,在随后的版本更新中,这一提示功能已被取消。
这些问题背后,是xAI所采用的独到策略——通过社交平台X上亿用户的即时行为数据,xAI构筑了一个“内容即数据源、平台为分发渠道”的AI闭环生态系统。
自3月份完成了对X的全额收购行动以来,xAI公司已经将Grok系列产品深度整合至其平台的基础架构之中。
此次发布会上,马斯克并没有对争议问题进行直接回应。
Grok 4无疑是技术领域的重大突破。然而,其推出亦再次向我们警示:
模型即便展现出相当于博士后水平的推理能力,却仍有可能产出极端言论。此时,问题的核心已不仅仅局限于技术层面,而是涵盖了从训练到部署再到治理的整个体系。
在人工智能每月实现显著进步的当下,我们如何界定创造力和限制之间的分界线?又该如何确保那些“智慧之脑”不会变成“失控的喇叭”?
这,或许与模型SOTA 一样值得关注。