Gemini 3.1 Pro 智能体能力拆解:MCP Atlas 和 BrowseComp 跑分背后的真相
2026 年最热的 AI 话题不是"模型有多聪明",而是"模型能不能自己干活"。智能体(Agent)——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。
Gemini 3.1 Pro 在 Model Card 里公布了一组智能体相关的基准测试数据,MCP Atlas 69.2%、BrowseComp 85.9%,数字不少。我把 Gemini 3.1 Pro 的智能体基准逐项拆开看了一遍,发现了一个有意思的矛盾:流程执行能力很强,但输出质量被专家打了低分。
MCP Atlas:69.2%
MCP Atlas 测试模型在多步骤工作流中使用 MCP(Model Context Protocol)工具的能力。MCP 是 Anthropic 在 2024 年底推出的工具调用协议标准,目的是让模型能用统一的接口调用外部工具——读写文件、调 API、执行命令、操作数据库等等。
测试的典型任务是这样的:给模型一个目标(比如"帮我查找这个仓库里所有超过 30 天未更新的 issue,按优先级排序,生成一份报告"),模型需要自己规划步骤、调用 MCP 工具执行每个步骤、处理中间结果、遇到错误时自行修正。
| 模型 | MCP Atlas |
|---|---|
| Gemini 3.1 Pro | 69.2% |
| Gemini 3 Pro | 54.1% |
| Claude Sonnet 4.6 | 61.3% |
| Claude Opus 4.6 | 59.5% |
| GPT-5.2 | 60.6% |
Gemini 3.1 Pro 在这里领先约 8-10 个百分点。环比提升 15 个百分点(从 54.1% 到 69.2%),是所有基准里提升最大的之一。
一个有趣的地方是:MCP 是 Anthropic 搞的协议,但 Gemini 在 MCP 基准上反而比 Claude 高。这说明 MCP 作为一个开放标准,模型对它的适配能力和模型提供商并不直接相关。
69.2% 意味着大约每 10 个多步骤 MCP 任务里模型能完成 7 个。对于自动化工作流来说这个成功率是可用的(前提是你有兜底机制——模型失败的 3 个任务需要人工介入或者重试)。
BrowseComp:85.9%
BrowseComp 测的是"搜索智能体"——模型拿到一个需要搜索才能回答的问题,可以使用搜索引擎、Python 代码和浏览器三个工具。
比如问"2026 年 1 月发布的所有超过 10 万星的 GitHub 仓库里,哪个的 contributor 数量最多",模型需要自己去搜、去翻 GitHub、可能还要写脚本做统计,然后给出答案。
| 模型 | BrowseComp |
|---|---|
| Gemini 3.1 Pro | 85.9% |
| Claude Opus 4.6 | 84.0% |
| GPT-5.2 | 65.8% |
| Gemini 3 Pro | 59.2% |
几个值得注意的点。
Gemini 3.1 Pro 和 Claude Opus 4.6 差距只有 1.9 个百分点,基本在伯仲之间。GPT-5.2 在这里明显掉队,只有 65.8%。
和上一代相比,Gemini 从 59.2% 跳到 85.9%,提升了 26.7 个百分点。这是所有基准里绝对值提升最大的一项。Google 在搜索领域的积累在这里体现得很明显——Grounding with Google Search 是 Gemini 独有的内置工具,竞品没有。
如果你在做研究助手、市场调研工具、情报分析系统这类需要搜索增强的产品,BrowseComp 的数据对你最有参考价值。
APEX-Agents:33.5%
APEX-Agents 测试"长流程专业任务"。这个基准模拟的是真实工作中的复杂流程——多轮邮件往返处理、跨系统数据整合、多步骤审批流程等。每个任务可能需要十几步甚至几十步才能完成。
| 模型 | APEX-Agents |
|---|---|
| Gemini 3.1 Pro | 33.5% |
| Claude Opus 4.6 | 29.8% |
| GPT-5.2 | 23.0% |
| Gemini 3 Pro | 18.4% |
绝对分数很低,这是测试本身的设计——任务确实很难,涉及多步长链推理和跨系统操作。
但 33.5% 意味着什么?每 3 个长流程任务里只有 1 个能成功完成。剩下 2 个会在某一步出错——可能是搞错了邮件收件人,可能是在跨系统调数据时拿到了错误的字段,可能是在审批流程里跳过了某个必要步骤。
在不太关键的场景(比如内部工具自动化)里 33.5% 也许够用,毕竟相比 Gemini 3 Pro 的 18.4% 已经快翻倍了。但在客户面对面的场景(比如自动处理客户投诉邮件),三分之二的失败率太高了,上线之前必须有人工审核环节。
Terminal-Bench 2.0:68.5%
Terminal-Bench 测试模型在终端环境里执行编程任务。和 SWE-Bench 的区别是,SWE-Bench 给你一个代码仓库让你修 bug,Terminal-Bench 更开放,可能让你在空白环境里搭建一个服务、配置数据库、写脚本做数据处理等。
| 模型 | Terminal-Bench 2.0 |
|---|---|
| Gemini 3.1 Pro | 68.5% |
| Claude Opus 4.6 | 65.4% |
| Claude Sonnet 4.6 | 59.1% |
| Gemini 3 Pro | 56.9% |
| GPT-5.2 | 54.0% |
| GPT-5.3-Codex (Codex harness) | 77.3% |
Gemini 3.1 Pro 在统一评测框架(Terminus-2 harness)下领先。但 GPT-5.3-Codex 在自己优化的 harness 下能跑到 77.3%——比所有通用模型都高。不过 Codex 是一个专门针对编程优化的版本,不算通用模型的公平对比。
68.5% 对终端编程任务来说是可用的:大约每 3 个任务能成功完成 2 个。如果配合重试机制(失败了让模型换一种方式再试一次),实际成功率能更高。
τ2-bench:零售 90.8%,电信 99.3%
τ2-bench 是一个专注于工具调用的基准,分零售和电信两个场景。
零售场景:处理退货、查订单状态、计算折扣等。
| 模型 | τ2-bench 零售 | τ2-bench 电信 |
|---|---|---|
| Gemini 3.1 Pro | 90.8% | 99.3% |
| Claude Opus 4.6 | 91.9% | 99.3% |
| Claude Sonnet 4.6 | 91.7% | 97.9% |
| GPT-5.2 | 82.0% | 98.7% |
零售场景 Claude 稍高 1 个百分点。电信场景 Gemini 和 Claude 打平。GPT-5.2 在零售场景掉了一截。
90%+ 的工具调用成功率对生产环境来说已经不错了。在真实的客服机器人场景中,如果 10 个工具调用请求里 9 个能成功,剩下 1 个触发人工转接,这是可接受的。
SWE-Bench 和 SWE-Bench Pro
代码修复相关的基准两家:
| 基准 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 | GPT-5.3-Codex |
|---|---|---|---|---|
| SWE-Bench Verified | 80.6% | 80.8% | 80.0% | — |
| SWE-Bench Pro | 54.2% | — | 55.6% | 56.8% |
SWE-Bench Verified 上三家基本打平,80% 左右。说明"给一个仓库,修一个 bug"这件事目前的顶级模型都做到了差不多的水平。
SWE-Bench Pro 更难(任务更多样化),Gemini 3.1 Pro 拿了 54.2%,GPT-5.2 55.6%,GPT-5.3-Codex 56.8%。这里 Gemini 略低,但差距不大。
一个不太好看的数字:GDPval-AA Elo
| 模型 | GDPval-AA Elo |
|---|---|
| Claude Sonnet 4.6 | 1633 |
| Claude Opus 4.6 | 1606 |
| GPT-5.2 | 1462 |
| Gemini 3.1 Pro | 1317 |
| Gemini 3 Pro | 1195 |
GDPval-AA 的全称是 GDP Validated Assessment for Agentic Actions。它的评分方式和其他基准不同——不是看模型完成了多少题,而是让人类专家对模型的输出质量打分。问"做得好不好"而不是"做没做到"。
Gemini 3.1 Pro 1317,比 Claude Sonnet 4.6 低了 316 分,比 GPT-5.2 低了 145 分。这是所有基准里 Gemini 3.1 Pro 落后最多的一项。
这就是我说的矛盾所在。在 MCP Atlas、BrowseComp、Terminal-Bench 这些"做没做到"的基准上,Gemini 3.1 Pro 领先或持平。但在"做得好不好"的偏好评分上,大幅落后。
一种可能的解释:Gemini 3.1 Pro 在任务完成的"流程执行"上很强——它能正确地调用工具、按正确的顺序执行步骤、处理好中间状态。但最终给出的结果(报告文本、代码质量、分析深度)在人类专家看来不够好。Claude 可能在流程上没那么顺滑(MCP 分数低),但给出来的东西质量更高。
对开发者的选型建议
如果你做的是自动化工作流——重点是模型能不能自己跑通一个多步骤流程、能不能正确调用工具、失败了能不能重试——Gemini 3.1 Pro 的 MCP Atlas 和 BrowseComp 分数说明它在这个方向上是最强的。
如果你做的产品需要把模型的输出直接展示给用户或者专家审阅——比如生成分析报告、写研究综述、产出需要人工签字的文档——Claude 系列在专家偏好上的优势值得考虑。
如果你需要搜索增强的智能体——Gemini 3.1 Pro 的 BrowseComp 85.9% 和自带的 Google Search Grounding 工具是独特优势。Claude 和 GPT 没有原生的搜索集成。
参考资料
- Gemini 3.1 Pro Model Card(智能体基准全表),Google DeepMind:https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Gemini 3.1 Pro Technical Deep Dive,n1n.ai:https://explore.n1n.ai/blog/gemini-3-1-pro-technical-deep-dive-performance-2026-02-20
- Gemini 3.1 Pro vs Claude Opus 4.6 完整对比,AI Free API:https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6
- Best AI Models 2026: Gemini vs Claude vs GPT,Serenities AI:https://serenitiesai.com/articles/best-ai-models-comparison-2026
- Gemini 3.1 Pro vs GPT-5.2 vs Claude Opus 4.6,evolink.ai:https://evolink.ai/blog/gemini-3-1-pro-vs-gpt-5-2-vs-claude-opus