Gemini 3.1 Pro 智能体能力拆解：MCP Atlas 和 BrowseComp 跑分背后的真相

2026 年最热的 AI 话题不是"模型有多聪明"，而是"模型能不能自己干活"。智能体（Agent）——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

Gemini 3.1 Pro 在 Model Card 里公布了一组智能体相关的基准测试数据，MCP Atlas 69.2%、BrowseComp 85.9%，数字不少。我把 Gemini 3.1 Pro 的智能体基准逐项拆开看了一遍，发现了一个有意思的矛盾：流程执行能力很强，但输出质量被专家打了低分。

MCP Atlas：69.2%

MCP Atlas 测试模型在多步骤工作流中使用 MCP（Model Context Protocol）工具的能力。MCP 是 Anthropic 在 2024 年底推出的工具调用协议标准，目的是让模型能用统一的接口调用外部工具——读写文件、调 API、执行命令、操作数据库等等。

测试的典型任务是这样的：给模型一个目标（比如"帮我查找这个仓库里所有超过 30 天未更新的 issue，按优先级排序，生成一份报告"），模型需要自己规划步骤、调用 MCP 工具执行每个步骤、处理中间结果、遇到错误时自行修正。

模型	MCP Atlas
Gemini 3.1 Pro	69.2%
Gemini 3 Pro	54.1%
Claude Sonnet 4.6	61.3%
Claude Opus 4.6	59.5%
GPT-5.2	60.6%

Gemini 3.1 Pro 在这里领先约 8-10 个百分点。环比提升 15 个百分点（从 54.1% 到 69.2%），是所有基准里提升最大的之一。

一个有趣的地方是：MCP 是 Anthropic 搞的协议，但 Gemini 在 MCP 基准上反而比 Claude 高。这说明 MCP 作为一个开放标准，模型对它的适配能力和模型提供商并不直接相关。

69.2% 意味着大约每 10 个多步骤 MCP 任务里模型能完成 7 个。对于自动化工作流来说这个成功率是可用的（前提是你有兜底机制——模型失败的 3 个任务需要人工介入或者重试）。

BrowseComp：85.9%

BrowseComp 测的是"搜索智能体"——模型拿到一个需要搜索才能回答的问题，可以使用搜索引擎、Python 代码和浏览器三个工具。

比如问"2026 年 1 月发布的所有超过 10 万星的 GitHub 仓库里，哪个的 contributor 数量最多"，模型需要自己去搜、去翻 GitHub、可能还要写脚本做统计，然后给出答案。

模型	BrowseComp
Gemini 3.1 Pro	85.9%
Claude Opus 4.6	84.0%
GPT-5.2	65.8%
Gemini 3 Pro	59.2%

几个值得注意的点。

Gemini 3.1 Pro 和 Claude Opus 4.6 差距只有 1.9 个百分点，基本在伯仲之间。GPT-5.2 在这里明显掉队，只有 65.8%。

和上一代相比，Gemini 从 59.2% 跳到 85.9%，提升了 26.7 个百分点。这是所有基准里绝对值提升最大的一项。Google 在搜索领域的积累在这里体现得很明显——Grounding with Google Search 是 Gemini 独有的内置工具，竞品没有。

如果你在做研究助手、市场调研工具、情报分析系统这类需要搜索增强的产品，BrowseComp 的数据对你最有参考价值。

APEX-Agents：33.5%

APEX-Agents 测试"长流程专业任务"。这个基准模拟的是真实工作中的复杂流程——多轮邮件往返处理、跨系统数据整合、多步骤审批流程等。每个任务可能需要十几步甚至几十步才能完成。

模型	APEX-Agents
Gemini 3.1 Pro	33.5%
Claude Opus 4.6	29.8%
GPT-5.2	23.0%
Gemini 3 Pro	18.4%

绝对分数很低，这是测试本身的设计——任务确实很难，涉及多步长链推理和跨系统操作。

但 33.5% 意味着什么？每 3 个长流程任务里只有 1 个能成功完成。剩下 2 个会在某一步出错——可能是搞错了邮件收件人，可能是在跨系统调数据时拿到了错误的字段，可能是在审批流程里跳过了某个必要步骤。

在不太关键的场景（比如内部工具自动化）里 33.5% 也许够用，毕竟相比 Gemini 3 Pro 的 18.4% 已经快翻倍了。但在客户面对面的场景（比如自动处理客户投诉邮件），三分之二的失败率太高了，上线之前必须有人工审核环节。

Terminal-Bench 2.0：68.5%

Terminal-Bench 测试模型在终端环境里执行编程任务。和 SWE-Bench 的区别是，SWE-Bench 给你一个代码仓库让你修 bug，Terminal-Bench 更开放，可能让你在空白环境里搭建一个服务、配置数据库、写脚本做数据处理等。

模型	Terminal-Bench 2.0
Gemini 3.1 Pro	68.5%
Claude Opus 4.6	65.4%
Claude Sonnet 4.6	59.1%
Gemini 3 Pro	56.9%
GPT-5.2	54.0%
GPT-5.3-Codex (Codex harness)	77.3%

Gemini 3.1 Pro 在统一评测框架（Terminus-2 harness）下领先。但 GPT-5.3-Codex 在自己优化的 harness 下能跑到 77.3%——比所有通用模型都高。不过 Codex 是一个专门针对编程优化的版本，不算通用模型的公平对比。

68.5% 对终端编程任务来说是可用的：大约每 3 个任务能成功完成 2 个。如果配合重试机制（失败了让模型换一种方式再试一次），实际成功率能更高。

τ2-bench：零售 90.8%，电信 99.3%

τ2-bench 是一个专注于工具调用的基准，分零售和电信两个场景。

零售场景：处理退货、查订单状态、计算折扣等。

模型	τ2-bench 零售	τ2-bench 电信
Gemini 3.1 Pro	90.8%	99.3%
Claude Opus 4.6	91.9%	99.3%
Claude Sonnet 4.6	91.7%	97.9%
GPT-5.2	82.0%	98.7%

零售场景 Claude 稍高 1 个百分点。电信场景 Gemini 和 Claude 打平。GPT-5.2 在零售场景掉了一截。

90%+ 的工具调用成功率对生产环境来说已经不错了。在真实的客服机器人场景中，如果 10 个工具调用请求里 9 个能成功，剩下 1 个触发人工转接，这是可接受的。

SWE-Bench 和 SWE-Bench Pro

代码修复相关的基准两家：

基准	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2	GPT-5.3-Codex
SWE-Bench Verified	80.6%	80.8%	80.0%	—
SWE-Bench Pro	54.2%	—	55.6%	56.8%

SWE-Bench Verified 上三家基本打平，80% 左右。说明"给一个仓库，修一个 bug"这件事目前的顶级模型都做到了差不多的水平。

SWE-Bench Pro 更难（任务更多样化），Gemini 3.1 Pro 拿了 54.2%，GPT-5.2 55.6%，GPT-5.3-Codex 56.8%。这里 Gemini 略低，但差距不大。

一个不太好看的数字：GDPval-AA Elo

模型	GDPval-AA Elo
Claude Sonnet 4.6	1633
Claude Opus 4.6	1606
GPT-5.2	1462
Gemini 3.1 Pro	1317
Gemini 3 Pro	1195

GDPval-AA 的全称是 GDP Validated Assessment for Agentic Actions。它的评分方式和其他基准不同——不是看模型完成了多少题，而是让人类专家对模型的输出质量打分。问"做得好不好"而不是"做没做到"。

Gemini 3.1 Pro 1317，比 Claude Sonnet 4.6 低了 316 分，比 GPT-5.2 低了 145 分。这是所有基准里 Gemini 3.1 Pro 落后最多的一项。

这就是我说的矛盾所在。在 MCP Atlas、BrowseComp、Terminal-Bench 这些"做没做到"的基准上，Gemini 3.1 Pro 领先或持平。但在"做得好不好"的偏好评分上，大幅落后。

一种可能的解释：Gemini 3.1 Pro 在任务完成的"流程执行"上很强——它能正确地调用工具、按正确的顺序执行步骤、处理好中间状态。但最终给出的结果（报告文本、代码质量、分析深度）在人类专家看来不够好。Claude 可能在流程上没那么顺滑（MCP 分数低），但给出来的东西质量更高。

对开发者的选型建议

如果你做的是自动化工作流——重点是模型能不能自己跑通一个多步骤流程、能不能正确调用工具、失败了能不能重试——Gemini 3.1 Pro 的 MCP Atlas 和 BrowseComp 分数说明它在这个方向上是最强的。

如果你做的产品需要把模型的输出直接展示给用户或者专家审阅——比如生成分析报告、写研究综述、产出需要人工签字的文档——Claude 系列在专家偏好上的优势值得考虑。

如果你需要搜索增强的智能体——Gemini 3.1 Pro 的 BrowseComp 85.9% 和自带的 Google Search Grounding 工具是独特优势。Claude 和 GPT 没有原生的搜索集成。

参考资料

Gemini 3.1 Pro Model Card（智能体基准全表），Google DeepMind：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Gemini 3.1 Pro Technical Deep Dive，n1n.ai：https://explore.n1n.ai/blog/gemini-3-1-pro-technical-deep-dive-performance-2026-02-20
Gemini 3.1 Pro vs Claude Opus 4.6 完整对比，AI Free API：https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6
Best AI Models 2026: Gemini vs Claude vs GPT，Serenities AI：https://serenitiesai.com/articles/best-ai-models-comparison-2026
Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6，evolink.ai：https://evolink.ai/blog/gemini-3-1-pro-vs-gpt-5-2-vs-claude-opus