Gemini 3.1 Pro 跑分 77,我翻完了 Model Card 觉得没那么简单

Gemini 3.1 Pro 跑分 77,我翻完了 Model Card 觉得没那么简单

2 月 19 日 Google 发布 Gemini 3.1 Pro,公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%,上一代 Gemini 3 Pro 只有 31.1%,翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 Pro 碾压 Claude 和 GPT"的标题。

我通读了 DeepMind 发布的 Gemini 3.1 Pro Model Card 完整基准数据,结论没那么简单。

ARC-AGI-2 这个测试是干嘛的

先说测试本身。ARC-AGI-2 由 ARC Prize 基金会发布,全称 Abstract Reasoning Corpus,专门测抽象推理能力。它和绝大多数 AI 基准测试有一个本质区别:每道题的逻辑规则都是全新的,模型不可能从训练数据里见过类似的题目。

具体来说,每道题给你几组输入-输出样例(都是彩色方块矩阵),你需要自己推断出变换规则,然后把规则应用到一个新的输入上,生成正确的输出。有点像智力测试里的图形推理题,但难度更高,变换规则完全不重复。

这个设计的好处是:它测的不是"模型背了多少知识",而是"模型在面对完全陌生的问题时能不能现场推理"。在 AI 评测领域里,这是少数能绕过"训练数据污染"问题的基准之一。

Gemini 3.1 Pro 在 ARC Prize 官方验证下拿了 77.1%,这个分数由独立机构确认,不是 Google 自测。Claude Opus 4.6 拿了 68.8%,GPT-5.2 是 52.9%。

数字背后的前提条件

77.1% vs 68.8% vs 52.9%,看起来差距不小。但这里有一个容易被忽略的细节:各家模型跑 ARC-AGI-2 用的推理配置不一样。

Google 用的是 Thinking (High) 模式,也就是 Gemini 3.1 Pro 的最高推理等级,内部推理 token 上限 32768 个。Claude 那边用的是 Thinking (Max)。GPT-5.2 用的是 Thinking (xhigh)。

这三个配置名字不同,背后消耗多少推理算力,各家都没有公开。所以严格来说,这个对比有一个隐含前提:"各家都开到了自己的最高推理档"。但最高档之间是否等价?没人知道。如果某家的"最高档"比另一家的算力高出一个数量级,拿分数直接比就不太公平。

这不是说 77.1% 有水分——ARC Prize 的验证流程是严格的——而是说"77.1% > 68.8%"这个结论的力度,取决于你对各家推理成本是否对等的判断。

Gemini 3.1 Pro Model Card 里其他基准的全景

只看 ARC-AGI-2 容易以偏概全。Model Card 里有十几项基准,我把对比性比较强的几项整理成表:

基准 测什么 Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2
ARC-AGI-2 抽象推理 77.1% 68.8% 52.9%
GPQA Diamond 研究生级科学问答 94.3% 91.3% 92.4%
Terminal-Bench 2.0 终端编程 68.5% 65.4% 54.0%
SWE-Bench Verified 代码修复 80.6% 80.8% 80.0%
LiveCodeBench Pro 竞赛编程 Elo 2887 2393
BrowseComp 搜索智能体 85.9% 84.0% 65.8%
MCP Atlas 工具调用工作流 69.2% 59.5% 60.6%
APEX-Agents 长流程任务 33.5% 29.8% 23.0%
GDPval-AA Elo 专家偏好评分 1317 1606 1462
HLE (无工具) 高难推理 44.4% 40.0% 34.5%
HLE (搜索+代码) 工具辅助推理 51.4% 53.1% 45.5%
MMMLU 多语言问答 92.6% 91.1% 89.6%
MMMU-Pro 多模态理解 80.5% 73.9% 79.5%

几个值得拿出来讨论的点。

推理和编程:Gemini 3.1 Pro 有优势。 ARC-AGI-2、Terminal-Bench、LiveCodeBench Pro,这几项 Gemini 都明确领先。做需要强推理的应用(数学、算法、逻辑分析),3.1 Pro 在跑分上确实更好。

代码修复打平。 SWE-Bench Verified 上三家几乎一样,80.6%、80.8%、80.0%。这说明在"理解一个现有代码仓库然后修 bug"这类任务上,当前顶级模型已经收敛到差不多的水平了。

专家偏好评分:Gemini 大幅落后。 GDPval-AA Elo 分是 1317,Claude Sonnet 4.6 是 1633,Opus 4.6 是 1606,GPT-5.2 是 1462。差了将近 300 分。

这个基准和别的不一样——不是看模型答对了多少题,而是让人类专家评判模型的输出质量。哪家的结果更有深度、更准确、更有用,专家说了算。Gemini 3.1 Pro 在这里被拉开一大截,说明一个你凭直觉也能感受到的事:跑分赢了不等于用起来感觉好。

多语言是个被低估的优势

MMMLU 多语言问答里,Gemini 3.1 Pro 拿了 92.6%,Claude 91.1%,GPT-5.2 89.6%。差距不算大,但如果你的应用场景涉及中文、日语、德语等非英文语言,这个 1-3 个百分点的差距在实际使用中可能放大。因为多语言问答考的不只是翻译能力,还有对不同语言中知识体系和表达习惯的理解。

MMMU-Pro(多模态理解推理)上 Gemini 3.1 Pro 拿了 80.5%,GPT-5.2 是 79.5%,Claude Opus 只有 73.9%。图表、图片、混合格式文档的理解上 Gemini 有比较清楚的优势。

HLE 的两组数据值得对照看

Humanity's Last Exam(HLE)分了"无工具"和"搜索+代码工具"两个版本。无工具版本 Gemini 3.1 Pro 44.4%,Claude 40.0%——Gemini 赢了。但加上搜索和代码工具之后,Claude Opus 反而变成 53.1%,Gemini 51.4%——Claude 赢了。

这个翻转挺有意思。它说明 Claude Opus 在"使用工具来辅助推理"这件事上更擅长。如果你的场景是让模型自己查资料、写脚本来辅助回答问题,Claude 的表现可能比 Gemini 好。而如果是纯靠模型自身推理(不给工具),Gemini 更强。

我的看法

77.1% 是真实的,ARC Prize 认证过,没有注水。Gemini 3.1 Pro 在抽象推理上确实是目前最强的公开模型。

但"最强抽象推理"不等于"所有方面都最好"。在专家偏好评分上 Claude 领先近 300 Elo,在工具辅助推理上 Claude 也赢了。在代码修复上三家打平。

选模型这件事没有统一答案。如果你做的是需要强推理链的应用(算法、数学建模、逻辑谜题),Gemini 3.1 Pro 的跑分确实最好看。如果你的用户是人类专家、对输出的打磨质量要求很高,Claude 系列在偏好评分上的优势不能忽略。如果预算有限,Gemini 3.1 Pro 的定价($2/$12 per million tokens)比 Claude Opus($15/$75)便宜很多,这也是选型要考虑的因素。

不要被单个基准数字带节奏,多看几组对比再下结论。


参考资料

← 返回博客列表