
全球科技界瞩目的时刻终于到来,马斯克旗下xAI公司正式发布新一代人工智能模型Grok-4。这款被誉为”人类最后考试”中首个突破50%准确率的AI系统,在多项权威基准测试中展现出超越人类博士的认知能力,标志着人工智能发展进入全新阶段。
颠覆性性能表现
Grok-4在被称为”人类最后考试”的HLE基准测试中取得突破性进展,Heavy版本达到44.4%的准确率,较Gemini-2.5-Pro提升近18个百分点。若结合测试时训练与工具融合技术,其得分更是飙升至50.7%,远超普通人类5%的水平。马斯克自信宣称:”Grok-4比所有领域的博士生都更聪明。”
在具体测试中,Grok-4展现出惊人实力:
- SAT考试近乎满分,GRE成绩接近完美
- AIME25数学竞赛斩获100%得分
- GPQA研究生水平问答88.9%正确率
- HMMT25数学推理79.4%得分
- USAMO25奥数竞赛61.9%得分
技术突破解析
Grok-4的成功源于三大核心技术突破:
- 超大规模训练:训练量达到Grok-2的100倍、Grok-3的10倍,依托xAI建设的20万卡计算集群完成
- 工具原生融合:创新性地在训练过程中整合多种工具,显著提升复杂任务处理能力
- 多模态能力强化:实现从文本理解到视觉分析的跨越式进步
实际应用展示
发布会现场演示了Grok-4的多样化应用场景:
- 精准预测MLB世界大赛胜负概率(道奇队21.6%胜率)
- 模拟黑洞引力波碰撞并生成真实波形动画
- 快速识别xAI员工头像特征
- 4小时内完成第一人称射击游戏开发
此外,在编程、药物研发等领域,Grok-4同样表现优异,Live Coding Bench测试近乎满分,RKG药物基准成为首个突破10%准确率的模型。
行业影响与未来规划
Grok-4的发布正在重塑AI行业格局。特斯拉最新固件已集成其全功能版本,未来将成为车载智能助手;擎天柱人形机器人也将搭载这一系统作为核心大脑。马斯克透露,团队正在开发专用编程模型和视频生成工具,AI视频游戏有望明年面世。
值得注意的是,Grok团队呈现多元化特征,华人科学家占比显著提升,反映出全球AI人才流动的新趋势。尽管发布过程历经波折,包括版本调整和争议事件影响,但Grok-4的强势登场无疑为人工智能领域注入了新的活力,其后续发展值得持续关注。