Gemini 3.1 Pro 基准测试深度拆解:ARC-AGI-2 的 77 分到底说明了什么
2 月 19 日 Google 发布 Gemini 3.1 Pro,公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%,上一代 Gemini 3 Pro 只有 31.1%,翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 Pro 碾压 Claude 和 GPT"的标题。
我通读了 DeepMind 发布的 Gemini 3.1 Pro Model Card 完整基准数据,结论没那么简单。
ARC-AGI-2 这个测试是干嘛的
先说测试本身。ARC-AGI-2 由 ARC Prize 基金会发布,全称 Abstract Reasoning Corpus,专门测抽象推理能力。它和绝大多数 AI 基准测试有一个本质区别:每道题的逻辑规则都是全新的,模型不可能从训练数据里见过类似的题目。
具体来说,每道题给你几组输入-输出样例(都是彩色方块矩阵),你需要自己推断出变换规则,然后把规则应用到一个新的输入上,生成正确的输出。有点像智力测试里的图形推理题,但难度更高,变换规则完全不重复。
这个设计的好处是:它测的不是"模型背了多少知识",而是"模型在面对完全陌生的问题时能不能现场推理"。在 AI 评测领域里,这是少数能绕过"训练数据污染"问题的基准之一。
Gemini 3.1 Pro 在 ARC Prize 官方验证下拿了 77.1%,这个分数由独立机构确认,不是 Google 自测。Claude Opus 4.6 拿了 68.8%,GPT-5.2 是 52.9%。
数字背后的前提条件
77.1% vs 68.8% vs 52.9%,看起来差距不小。但这里有一个容易被忽略的细节:各家模型跑 ARC-AGI-2 用的推理配置不一样。
Google 用的是 Thinking (High) 模式,也就是 Gemini 3.1 Pro 的最高推理等级,内部推理 token 上限 32768 个。Claude 那边用的是 Thinking (Max)。GPT-5.2 用的是 Thinking (xhigh)。
这三个配置名字不同,背后消耗多少推理算力,各家都没有公开。所以严格来说,这个对比有一个隐含前提:"各家都开到了自己的最高推理档"。但最高档之间是否等价?没人知道。如果某家的"最高档"比另一家的算力高出一个数量级,拿分数直接比就不太公平。
这不是说 77.1% 有水分——ARC Prize 的验证流程是严格的——而是说"77.1% > 68.8%"这个结论的力度,取决于你对各家推理成本是否对等的判断。
Model Card 里其他基准的全景
只看 ARC-AGI-2 容易以偏概全。Model Card 里有十几项基准,我把对比性比较强的几项整理成表:
| 基准 | 测什么 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|---|
| ARC-AGI-2 | 抽象推理 | 77.1% | 68.8% | 52.9% |
| GPQA Diamond | 研究生级科学问答 | 94.3% | 91.3% | 92.4% |
| Terminal-Bench 2.0 | 终端编程 | 68.5% | 65.4% | 54.0% |
| SWE-Bench Verified | 代码修复 | 80.6% | 80.8% | 80.0% |
| LiveCodeBench Pro | 竞赛编程 Elo | 2887 | — | 2393 |
| BrowseComp | 搜索智能体 | 85.9% | 84.0% | 65.8% |
| MCP Atlas | 工具调用工作流 | 69.2% | 59.5% | 60.6% |
| APEX-Agents | 长流程任务 | 33.5% | 29.8% | 23.0% |
| GDPval-AA Elo | 专家偏好评分 | 1317 | 1606 | 1462 |
| HLE (无工具) | 高难推理 | 44.4% | 40.0% | 34.5% |
| HLE (搜索+代码) | 工具辅助推理 | 51.4% | 53.1% | 45.5% |
| MMMLU | 多语言问答 | 92.6% | 91.1% | 89.6% |
| MMMU-Pro | 多模态理解 | 80.5% | 73.9% | 79.5% |
几个值得拿出来讨论的点。
推理和编程:Gemini 3.1 Pro 有优势。 ARC-AGI-2、Terminal-Bench、LiveCodeBench Pro,这几项 Gemini 都明确领先。做需要强推理的应用(数学、算法、逻辑分析),3.1 Pro 在跑分上确实更好。
代码修复打平。 SWE-Bench Verified 上三家几乎一样,80.6%、80.8%、80.0%。这说明在"理解一个现有代码仓库然后修 bug"这类任务上,当前顶级模型已经收敛到差不多的水平了。
专家偏好评分:Gemini 大幅落后。 GDPval-AA Elo 分是 1317,Claude Sonnet 4.6 是 1633,Opus 4.6 是 1606,GPT-5.2 是 1462。差了将近 300 分。
这个基准和别的不一样——不是看模型答对了多少题,而是让人类专家评判模型的输出质量。哪家的结果更有深度、更准确、更有用,专家说了算。Gemini 3.1 Pro 在这里被拉开一大截,说明一个你凭直觉也能感受到的事:跑分赢了不等于用起来感觉好。
多语言是个被低估的优势
MMMLU 多语言问答里,Gemini 3.1 Pro 拿了 92.6%,Claude 91.1%,GPT-5.2 89.6%。差距不算大,但如果你的应用场景涉及中文、日语、德语等非英文语言,这个 1-3 个百分点的差距在实际使用中可能放大。因为多语言问答考的不只是翻译能力,还有对不同语言中知识体系和表达习惯的理解。
MMMU-Pro(多模态理解推理)上 Gemini 3.1 Pro 拿了 80.5%,GPT-5.2 是 79.5%,Claude Opus 只有 73.9%。图表、图片、混合格式文档的理解上 Gemini 有比较清楚的优势。
HLE 的两组数据值得对照看
Humanity's Last Exam(HLE)分了"无工具"和"搜索+代码工具"两个版本。无工具版本 Gemini 3.1 Pro 44.4%,Claude 40.0%——Gemini 赢了。但加上搜索和代码工具之后,Claude Opus 反而变成 53.1%,Gemini 51.4%——Claude 赢了。
这个翻转挺有意思。它说明 Claude Opus 在"使用工具来辅助推理"这件事上更擅长。如果你的场景是让模型自己查资料、写脚本来辅助回答问题,Claude 的表现可能比 Gemini 好。而如果是纯靠模型自身推理(不给工具),Gemini 更强。
我的看法
77.1% 是真实的,ARC Prize 认证过,没有注水。Gemini 3.1 Pro 在抽象推理上确实是目前最强的公开模型。
但"最强抽象推理"不等于"所有方面都最好"。在专家偏好评分上 Claude 领先近 300 Elo,在工具辅助推理上 Claude 也赢了。在代码修复上三家打平。
选模型这件事没有统一答案。如果你做的是需要强推理链的应用(算法、数学建模、逻辑谜题),Gemini 3.1 Pro 的跑分确实最好看。如果你的用户是人类专家、对输出的打磨质量要求很高,Claude 系列在偏好评分上的优势不能忽略。如果预算有限,Gemini 3.1 Pro 的定价($2/$12 per million tokens)比 Claude Opus($15/$75)便宜很多,这也是选型要考虑的因素。
不要被单个基准数字带节奏,多看几组对比再下结论。
参考资料
- Gemini 3.1 Pro Model Card(完整基准测试表),Google DeepMind,2026年2月:https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Gemini 3.1 Pro vs Gemini 3 分析,Data Studios:https://www.datastudios.org/post/gemini-3-1-pro-vs-gemini-3-comparison-analysis-performance-deltas-benchmarks-tool-use-and-more
- Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2 对比,NxCode:https://www.nxcode.io/resources/news/gemini-3-1-pro-vs-claude-opus-4-6-vs-gpt-5-comparison-2026
- Google releases Gemini 3.1 Pro: Benchmarks,Mashable:https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks
- Gemini 3.1 Pro vs Claude Opus 4.6 完整对比,AI Free API:https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6