Gemini 3.1 Pro 基准测试没你想的那么简单

Gemini 3.1 Pro 基准测试没你想的那么简单

2月19日,Google 发布了 Gemini 3.1 Pro,公告里的数字很好看:ARC-AGI-2 得了 77.1%,比上一代 Gemini 3 Pro 的 31.1% 翻了一倍多。很多报道直接说"完胜 GPT-5.2 和 Claude Opus 4.6",但我看完 DeepMind 的 Model Card 之后,觉得这个结论下得太快了。

ARC-AGI-2 到底在测什么

ARC-AGI-2 是 ARC Prize 组织发布的第二版抽象推理测试,每道题都是模型从未见过的逻辑图案,要求模型推断出规则并补全答案。之所以叫"Abstract Reasoning Corpus",是因为它刻意排除了知识记忆的影响——你背了再多训练数据也没用,就是得现场推。

Gemini 3.1 Pro 在这个榜上拿到了 77.1%(验证得分),这是个相当高的数字。Claude Opus 4.6 是 68.8%,GPT-5.2 是 52.9%。差距不小。

但这里有个细节容易被忽略:各家模型跑 ARC-AGI-2 的测试条件并不完全统一。Google 用的是"Thinking (High)"模式,也就是开了最高级别的推理链。Claude 那边用的是"Thinking (Max)"。GPT-5.2 用的是"Thinking (xhigh)"。名字不同,具体用了多少推理算力没人公开,所以这个比较严格来说是有前提的。

哪些分数是 Gemini 3.1 Pro 赢了,哪些没赢

Model Card 里的基准测试结果比较全面,我把关键的几项整理了一下:

Gemini 3.1 Pro 明显领先的:

  • ARC-AGI-2(抽象推理):77.1% vs Claude 68.8% vs GPT-5.2 52.9%
  • Terminal-Bench 2.0(终端编程):68.5% vs GPT-5.2 54.0%
  • APEX-Agents(长流程专业任务):33.5% vs Claude 29.8%
  • BrowseComp(搜索智能体):85.9% vs Claude 84.0%
  • LiveCodeBench Pro Elo(竞技编程):2887 vs GPT-5.2 2393

Gemini 3.1 Pro 输掉的:

  • GDPval-AA Elo(专家任务偏好评分):1317,而 Claude Sonnet 4.6 是 1633,Opus 4.6 是 1606。这个差距很大,说明在需要人类专家判断的任务上,Gemini 3.1 Pro 的输出质量明显不如 Claude 系列。
  • Humanity's Last Exam(工具辅助版):搜索+代码工具下 Claude Opus 53.1% vs Gemini 51.4%。没差多少,但 Gemini 反而稍低。
  • SWE-Bench Verified(单次代码修复):Gemini 80.6%,Claude Opus 80.8%,基本持平。

一个值得关注的异常

MMMLU 多语言问答里,Gemini 3.1 Pro 得了 92.6%,Claude Sonnet 4.6 是 89.3%,GPT-5.2 是 89.6%。这说明多语言理解上 Gemini 3.1 Pro 是有优势的,对非英语场景的开发者来说这个数字可能更实用。

GDPval-AA 那个 1317 Elo 分让我想了很久。Sonnet 4.6 是 1633,差了近 300 分。这个基准测的是"专家级任务的输出质量",靠的是人类专家打分,不是自动评测。这恰好说明基准测试分数高不代表用起来体验就好。数学推理棒,写出来的东西专家未必买账。

底线

ARC-AGI-2 77.1% 是真实数字,Google 在 ARC Prize 官方验证下拿到了这个分数,不是自测。但把这个数字直接等同于"全面超越 Claude 和 GPT"是跳步了。具体用哪个模型,还是得看你的任务类型——专家偏好评分里 Claude 的领先幅度不小。


参考资料

← 返回博客列表