北京时间7月10日中午,马斯克旗下xAI公司正式发布新一代大模型Grok 4,宣称其性能超越人类博士后水平,在多项基准测试中登顶全球第一。更令人瞩目的是,Grok 4的付费订阅价格飙升至每年最高3000美元(约合人民币2.15万元),成为目前最昂贵的AI服务之一。

Grok 4:推理能力提升10倍,SAT/GRE接近满分
在今天的发布会上,马斯克自信地表示,Grok 4是“世界上最好的AI”,并在SAT(美国高考)和GRE(研究生入学考试)中表现接近满分,甚至能解决部分研究生级别的科学问题。xAI团队强调,Grok 4的推理能力较前代提升10倍,主要得益于强化学习(RL)和计算资源的指数级增长。
从技术演进来看:
- Grok 2:基于“下一个token预测”范式,依赖大规模预训练。
- Grok 3:引入预训练+RL微调,首次实现深度推理能力。
- Grok 4:进一步强化RL训练,计算量再增10倍,推理能力远超人类水平。
马斯克甚至断言:“Grok 4今年内可能实现科学新发现。”这一表态让业界震惊,因为AI独立发现新科学定律此前仅存在于理论设想中。
基准测试霸榜:HLE、GPQA、ARC-AGI全面超越人类
Grok 4在多项权威测试中表现惊人:
- HLE(人类最后考试):在数学、化学和逻辑学测试中,Grok 4 Heavy版本得分达44.4%,远超其他SOTA模型(如Gemini 2.5 Pro的38.6%)。若允许更长时间思考和工具调用,分数可进一步提升至50.7%。
- GPQA(研究生级问答):Grok 4 Heavy成为首个超越人类专家表现的AI模型。
- ARC-AGI:在通用推理基准测试中,Grok 4达到15.9%的得分,几乎翻倍于之前的商业SOTA(如Claude 4 Opus的8.3%)。
- Vending-Bench:评估AI在真实物理世界操作任务的能力,Grok 4超越Gemini 2.5 Pro和o3,推动机器人技术向AGI迈进。
xAI研究团队称,Grok 4在所有学科均达到博士后水平,“唯一限制是尚未发现新的物理定律——但这只是时间问题。”
多模态与交互升级:语音、游戏、编程全面进化
除学术表现外,Grok 4的实际应用能力也大幅增强:
- 语音交互:响应速度提升2倍,延迟降低,支持5种语音风格,新增角色Eve(可唱歌、低语)和Sal(多性格切换)。
- 编程与游戏:用户DannyLimanseta仅用4小时就用Grok 4开发了一款FPS射击游戏,AI不仅能编写代码,还能优化游戏机制。
- API与工具调用:提供256K上下文窗口,推理速度达每秒75 tokens(虽不及o3的188 tokens,但优于Claude 4 Opus的66 tokens)。
价格争议:年费2万元,AI进入“奢侈品时代”?
Grok 4的定价策略引发热议:
- SuperGrok:年费300美元(约2.15万元),主打基础功能。
- SuperGrok Heavy:年费3000美元(约21.5万元),解锁全部高级能力,包括深度推理和工具调用。
相比之下,OpenAI的GPT-4 Turbo年费约240美元,Claude 3 Opus约200美元。马斯克对此解释:“Grok 4的计算成本极高,且性能远超竞品。”但分析师认为,如此高价可能限制其普及,仅面向企业及高端科研用户。
未来计划:月更节奏,视频生成模型即将推出
xAI透露,下一步将加速产品迭代:
- 代码模型:提升编程辅助能力。
- 多模态智能体:结合视觉与语言理解。
- 视频生成模型:可能对标Sora,但支持物理世界模拟。
马斯克总结道:“我们正处在智能爆炸的奇点,Grok 4只是开始。”随着AGI竞赛白热化,这场由特斯拉、OpenAI、谷歌主导的AI革命,或将重新定义人类与机器的关系。
Grok 4的发布标志着大模型竞赛进入新阶段——从“通用聊天”转向“专业科研”。尽管价格高昂,但其性能突破已让业界看到AGI的曙光。下一步,AI是否会真正颠覆科学发现?答案或许就在未来12个月内。