Gemini 3.1 Pro 基准测试深度拆解：ARC-AGI-2 的 77 分到底说明了什么

2 月 19 日 Google 发布 Gemini 3.1 Pro，公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%，上一代 Gemini 3 Pro 只有 31.1%，翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 Pro 碾压 Claude 和 GPT"的标题。

我通读了 DeepMind 发布的 Gemini 3.1 Pro Model Card 完整基准数据，结论没那么简单。

ARC-AGI-2 这个测试是干嘛的

先说测试本身。ARC-AGI-2 由 ARC Prize 基金会发布，全称 Abstract Reasoning Corpus，专门测抽象推理能力。它和绝大多数 AI 基准测试有一个本质区别：每道题的逻辑规则都是全新的，模型不可能从训练数据里见过类似的题目。

具体来说，每道题给你几组输入-输出样例（都是彩色方块矩阵），你需要自己推断出变换规则，然后把规则应用到一个新的输入上，生成正确的输出。有点像智力测试里的图形推理题，但难度更高，变换规则完全不重复。

这个设计的好处是：它测的不是"模型背了多少知识"，而是"模型在面对完全陌生的问题时能不能现场推理"。在 AI 评测领域里，这是少数能绕过"训练数据污染"问题的基准之一。

Gemini 3.1 Pro 在 ARC Prize 官方验证下拿了 77.1%，这个分数由独立机构确认，不是 Google 自测。Claude Opus 4.6 拿了 68.8%，GPT-5.2 是 52.9%。

数字背后的前提条件

77.1% vs 68.8% vs 52.9%，看起来差距不小。但这里有一个容易被忽略的细节：各家模型跑 ARC-AGI-2 用的推理配置不一样。

Google 用的是 Thinking (High) 模式，也就是 Gemini 3.1 Pro 的最高推理等级，内部推理 token 上限 32768 个。Claude 那边用的是 Thinking (Max)。GPT-5.2 用的是 Thinking (xhigh)。

这三个配置名字不同，背后消耗多少推理算力，各家都没有公开。所以严格来说，这个对比有一个隐含前提："各家都开到了自己的最高推理档"。但最高档之间是否等价？没人知道。如果某家的"最高档"比另一家的算力高出一个数量级，拿分数直接比就不太公平。

这不是说 77.1% 有水分——ARC Prize 的验证流程是严格的——而是说"77.1% > 68.8%"这个结论的力度，取决于你对各家推理成本是否对等的判断。

Model Card 里其他基准的全景

只看 ARC-AGI-2 容易以偏概全。Model Card 里有十几项基准，我把对比性比较强的几项整理成表：

基准	测什么	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2	抽象推理	77.1%	68.8%	52.9%
GPQA Diamond	研究生级科学问答	94.3%	91.3%	92.4%
Terminal-Bench 2.0	终端编程	68.5%	65.4%	54.0%
SWE-Bench Verified	代码修复	80.6%	80.8%	80.0%
LiveCodeBench Pro	竞赛编程 Elo	2887	—	2393
BrowseComp	搜索智能体	85.9%	84.0%	65.8%
MCP Atlas	工具调用工作流	69.2%	59.5%	60.6%
APEX-Agents	长流程任务	33.5%	29.8%	23.0%
GDPval-AA Elo	专家偏好评分	1317	1606	1462
HLE (无工具)	高难推理	44.4%	40.0%	34.5%
HLE (搜索+代码)	工具辅助推理	51.4%	53.1%	45.5%
MMMLU	多语言问答	92.6%	91.1%	89.6%
MMMU-Pro	多模态理解	80.5%	73.9%	79.5%

几个值得拿出来讨论的点。

推理和编程：Gemini 3.1 Pro 有优势。 ARC-AGI-2、Terminal-Bench、LiveCodeBench Pro，这几项 Gemini 都明确领先。做需要强推理的应用（数学、算法、逻辑分析），3.1 Pro 在跑分上确实更好。

代码修复打平。 SWE-Bench Verified 上三家几乎一样，80.6%、80.8%、80.0%。这说明在"理解一个现有代码仓库然后修 bug"这类任务上，当前顶级模型已经收敛到差不多的水平了。

专家偏好评分：Gemini 大幅落后。 GDPval-AA Elo 分是 1317，Claude Sonnet 4.6 是 1633，Opus 4.6 是 1606，GPT-5.2 是 1462。差了将近 300 分。

这个基准和别的不一样——不是看模型答对了多少题，而是让人类专家评判模型的输出质量。哪家的结果更有深度、更准确、更有用，专家说了算。Gemini 3.1 Pro 在这里被拉开一大截，说明一个你凭直觉也能感受到的事：跑分赢了不等于用起来感觉好。

多语言是个被低估的优势

MMMLU 多语言问答里，Gemini 3.1 Pro 拿了 92.6%，Claude 91.1%，GPT-5.2 89.6%。差距不算大，但如果你的应用场景涉及中文、日语、德语等非英文语言，这个 1-3 个百分点的差距在实际使用中可能放大。因为多语言问答考的不只是翻译能力，还有对不同语言中知识体系和表达习惯的理解。

MMMU-Pro（多模态理解推理）上 Gemini 3.1 Pro 拿了 80.5%，GPT-5.2 是 79.5%，Claude Opus 只有 73.9%。图表、图片、混合格式文档的理解上 Gemini 有比较清楚的优势。

HLE 的两组数据值得对照看

Humanity's Last Exam（HLE）分了"无工具"和"搜索+代码工具"两个版本。无工具版本 Gemini 3.1 Pro 44.4%，Claude 40.0%——Gemini 赢了。但加上搜索和代码工具之后，Claude Opus 反而变成 53.1%，Gemini 51.4%——Claude 赢了。

这个翻转挺有意思。它说明 Claude Opus 在"使用工具来辅助推理"这件事上更擅长。如果你的场景是让模型自己查资料、写脚本来辅助回答问题，Claude 的表现可能比 Gemini 好。而如果是纯靠模型自身推理（不给工具），Gemini 更强。

我的看法

77.1% 是真实的，ARC Prize 认证过，没有注水。Gemini 3.1 Pro 在抽象推理上确实是目前最强的公开模型。

但"最强抽象推理"不等于"所有方面都最好"。在专家偏好评分上 Claude 领先近 300 Elo，在工具辅助推理上 Claude 也赢了。在代码修复上三家打平。

选模型这件事没有统一答案。如果你做的是需要强推理链的应用（算法、数学建模、逻辑谜题），Gemini 3.1 Pro 的跑分确实最好看。如果你的用户是人类专家、对输出的打磨质量要求很高，Claude 系列在偏好评分上的优势不能忽略。如果预算有限，Gemini 3.1 Pro 的定价（$2/$12 per million tokens）比 Claude Opus（$15/$75）便宜很多，这也是选型要考虑的因素。

不要被单个基准数字带节奏，多看几组对比再下结论。

参考资料

Gemini 3.1 Pro Model Card（完整基准测试表），Google DeepMind，2026年2月：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Gemini 3.1 Pro vs Gemini 3 分析，Data Studios：https://www.datastudios.org/post/gemini-3-1-pro-vs-gemini-3-comparison-analysis-performance-deltas-benchmarks-tool-use-and-more
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2 对比，NxCode：https://www.nxcode.io/resources/news/gemini-3-1-pro-vs-claude-opus-4-6-vs-gpt-5-comparison-2026
Google releases Gemini 3.1 Pro: Benchmarks，Mashable：https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks
Gemini 3.1 Pro vs Claude Opus 4.6 完整对比，AI Free API：https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6