马斯克引爆AI革命:Grok 4登顶全球大模型之巅,年费高达2万元

北京时间7月10日中午,马斯克旗下xAI公司正式发布新一代大模型Grok 4,宣称其性能超越人类博士后水平,在多项基准测试中登顶全球第一。更令人瞩目的是,Grok 4的付费订阅价格飙升至每年最高3000美元(约合人民币2.15万元),成为目前最昂贵的AI服务之一。

Grok 4:推理能力提升10倍,SAT/GRE接近满分

在今天的发布会上,马斯克自信地表示,Grok 4是“世界上最好的AI”,并在SAT(美国高考)和GRE(研究生入学考试)中表现接近满分,甚至能解决部分研究生级别的科学问题。xAI团队强调,Grok 4的推理能力较前代提升10倍,主要得益于强化学习(RL)和计算资源的指数级增长。

从技术演进来看:

  • Grok 2:基于“下一个token预测”范式,依赖大规模预训练。
  • Grok 3:引入预训练+RL微调,首次实现深度推理能力。
  • Grok 4:进一步强化RL训练,计算量再增10倍,推理能力远超人类水平。

马斯克甚至断言:“Grok 4今年内可能实现科学新发现。”这一表态让业界震惊,因为AI独立发现新科学定律此前仅存在于理论设想中。

基准测试霸榜:HLE、GPQA、ARC-AGI全面超越人类

Grok 4在多项权威测试中表现惊人:

  1. HLE(人类最后考试):在数学、化学和逻辑学测试中,Grok 4 Heavy版本得分达44.4%,远超其他SOTA模型(如Gemini 2.5 Pro的38.6%)。若允许更长时间思考和工具调用,分数可进一步提升至50.7%。
  2. GPQA(研究生级问答):Grok 4 Heavy成为首个超越人类专家表现的AI模型。
  3. ARC-AGI:在通用推理基准测试中,Grok 4达到15.9%的得分,几乎翻倍于之前的商业SOTA(如Claude 4 Opus的8.3%)。
  4. Vending-Bench:评估AI在真实物理世界操作任务的能力,Grok 4超越Gemini 2.5 Pro和o3,推动机器人技术向AGI迈进。

xAI研究团队称,Grok 4在所有学科均达到博士后水平,“唯一限制是尚未发现新的物理定律——但这只是时间问题。”

多模态与交互升级:语音、游戏、编程全面进化

除学术表现外,Grok 4的实际应用能力也大幅增强:

  • 语音交互:响应速度提升2倍,延迟降低,支持5种语音风格,新增角色Eve(可唱歌、低语)和Sal(多性格切换)。
  • 编程与游戏:用户DannyLimanseta仅用4小时就用Grok 4开发了一款FPS射击游戏,AI不仅能编写代码,还能优化游戏机制。
  • API与工具调用:提供256K上下文窗口,推理速度达每秒75 tokens(虽不及o3的188 tokens,但优于Claude 4 Opus的66 tokens)。

价格争议:年费2万元,AI进入“奢侈品时代”?

Grok 4的定价策略引发热议:

  • SuperGrok:年费300美元(约2.15万元),主打基础功能。
  • SuperGrok Heavy:年费3000美元(约21.5万元),解锁全部高级能力,包括深度推理和工具调用。

相比之下,OpenAI的GPT-4 Turbo年费约240美元,Claude 3 Opus约200美元。马斯克对此解释:“Grok 4的计算成本极高,且性能远超竞品。”但分析师认为,如此高价可能限制其普及,仅面向企业及高端科研用户。

未来计划:月更节奏,视频生成模型即将推出

xAI透露,下一步将加速产品迭代:

  • 代码模型:提升编程辅助能力。
  • 多模态智能体:结合视觉与语言理解。
  • 视频生成模型:可能对标Sora,但支持物理世界模拟。

马斯克总结道:“我们正处在智能爆炸的奇点,Grok 4只是开始。”随着AGI竞赛白热化,这场由特斯拉、OpenAI、谷歌主导的AI革命,或将重新定义人类与机器的关系。

Grok 4的发布标志着大模型竞赛进入新阶段——从“通用聊天”转向“专业科研”。尽管价格高昂,但其性能突破已让业界看到AGI的曙光。下一步,AI是否会真正颠覆科学发现?答案或许就在未来12个月内。

为您推荐