Gemini 3.1 Pro 基准测试没你想的那么简单

2月19日，Google 发布了 Gemini 3.1 Pro，公告里的数字很好看：ARC-AGI-2 得了 77.1%，比上一代 Gemini 3 Pro 的 31.1% 翻了一倍多。很多报道直接说"完胜 GPT-5.2 和 Claude Opus 4.6"，但我看完 DeepMind 的 Model Card 之后，觉得这个结论下得太快了。

ARC-AGI-2 到底在测什么

ARC-AGI-2 是 ARC Prize 组织发布的第二版抽象推理测试，每道题都是模型从未见过的逻辑图案，要求模型推断出规则并补全答案。之所以叫"Abstract Reasoning Corpus"，是因为它刻意排除了知识记忆的影响——你背了再多训练数据也没用，就是得现场推。

Gemini 3.1 Pro 在这个榜上拿到了 77.1%（验证得分），这是个相当高的数字。Claude Opus 4.6 是 68.8%，GPT-5.2 是 52.9%。差距不小。

但这里有个细节容易被忽略：各家模型跑 ARC-AGI-2 的测试条件并不完全统一。Google 用的是"Thinking (High)"模式，也就是开了最高级别的推理链。Claude 那边用的是"Thinking (Max)"。GPT-5.2 用的是"Thinking (xhigh)"。名字不同，具体用了多少推理算力没人公开，所以这个比较严格来说是有前提的。

哪些分数是 Gemini 3.1 Pro 赢了，哪些没赢

Model Card 里的基准测试结果比较全面，我把关键的几项整理了一下：

Gemini 3.1 Pro 明显领先的：

ARC-AGI-2（抽象推理）：77.1% vs Claude 68.8% vs GPT-5.2 52.9%
Terminal-Bench 2.0（终端编程）：68.5% vs GPT-5.2 54.0%
APEX-Agents（长流程专业任务）：33.5% vs Claude 29.8%
BrowseComp（搜索智能体）：85.9% vs Claude 84.0%
LiveCodeBench Pro Elo（竞技编程）：2887 vs GPT-5.2 2393

Gemini 3.1 Pro 输掉的：

GDPval-AA Elo（专家任务偏好评分）：1317，而 Claude Sonnet 4.6 是 1633，Opus 4.6 是 1606。这个差距很大，说明在需要人类专家判断的任务上，Gemini 3.1 Pro 的输出质量明显不如 Claude 系列。
Humanity's Last Exam（工具辅助版）：搜索+代码工具下 Claude Opus 53.1% vs Gemini 51.4%。没差多少，但 Gemini 反而稍低。
SWE-Bench Verified（单次代码修复）：Gemini 80.6%，Claude Opus 80.8%，基本持平。

一个值得关注的异常

MMMLU 多语言问答里，Gemini 3.1 Pro 得了 92.6%，Claude Sonnet 4.6 是 89.3%，GPT-5.2 是 89.6%。这说明多语言理解上 Gemini 3.1 Pro 是有优势的，对非英语场景的开发者来说这个数字可能更实用。

GDPval-AA 那个 1317 Elo 分让我想了很久。Sonnet 4.6 是 1633，差了近 300 分。这个基准测的是"专家级任务的输出质量"，靠的是人类专家打分，不是自动评测。这恰好说明基准测试分数高不代表用起来体验就好。数学推理棒，写出来的东西专家未必买账。

底线

ARC-AGI-2 77.1% 是真实数字，Google 在 ARC Prize 官方验证下拿到了这个分数，不是自测。但把这个数字直接等同于"全面超越 Claude 和 GPT"是跳步了。具体用哪个模型，还是得看你的任务类型——专家偏好评分里 Claude 的领先幅度不小。

参考资料

Gemini 3.1 Pro Model Card，Google DeepMind，2026年2月19日：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Gemini 3.1 Pro vs Gemini 3 benchmarks analysis，Data Studios：https://www.datastudios.org/post/gemini-3-1-pro-vs-gemini-3-comparison-analysis-performance-deltas-benchmarks-tool-use-and-more
Gemini 3.1 Pro vs Claude Opus 4.6 vs GPT-5.2，NxCode：https://www.nxcode.io/resources/news/gemini-3-1-pro-vs-claude-opus-4-6-vs-gpt-5-comparison-2026
Gemini 3.1 Pro benchmarks，Mashable，2026年2月19日：https://mashable.com/article/google-releases-gemini-3-1-pro-benchmarks