Gemini 3.1 Pro 做 Agent 到底行不行,我把跑分一项项拆了

Gemini 3.1 Pro 做 Agent 到底行不行,我把跑分一项项拆了

2026 年最热的 AI 话题不是"模型有多聪明",而是"模型能不能自己干活"。智能体(Agent)——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

Gemini 3.1 Pro 在 Model Card 里公布了一组智能体相关的基准测试数据,MCP Atlas 69.2%、BrowseComp 85.9%,数字不少。我把 Gemini 3.1 Pro 的智能体基准逐项拆开看了一遍,发现了一个有意思的矛盾:流程执行能力很强,但输出质量被专家打了低分。

MCP Atlas:69.2%

MCP Atlas 测试模型在多步骤工作流中使用 MCP(Model Context Protocol)工具的能力。MCP 是 Anthropic 在 2024 年底推出的工具调用协议标准,目的是让模型能用统一的接口调用外部工具——读写文件、调 API、执行命令、操作数据库等等。

测试的典型任务是这样的:给模型一个目标(比如"帮我查找这个仓库里所有超过 30 天未更新的 issue,按优先级排序,生成一份报告"),模型需要自己规划步骤、调用 MCP 工具执行每个步骤、处理中间结果、遇到错误时自行修正。

模型 MCP Atlas
Gemini 3.1 Pro 69.2%
Gemini 3 Pro 54.1%
Claude Sonnet 4.6 61.3%
Claude Opus 4.6 59.5%
GPT-5.2 60.6%

Gemini 3.1 Pro 在这里领先约 8-10 个百分点。环比提升 15 个百分点(从 54.1% 到 69.2%),是所有基准里提升最大的之一。

一个有趣的地方是:MCP 是 Anthropic 搞的协议,但 Gemini 在 MCP 基准上反而比 Claude 高。这说明 MCP 作为一个开放标准,模型对它的适配能力和模型提供商并不直接相关。

69.2% 意味着大约每 10 个多步骤 MCP 任务里模型能完成 7 个。对于自动化工作流来说这个成功率是可用的(前提是你有兜底机制——模型失败的 3 个任务需要人工介入或者重试)。

BrowseComp:85.9%

BrowseComp 测的是"搜索智能体"——模型拿到一个需要搜索才能回答的问题,可以使用搜索引擎、Python 代码和浏览器三个工具。

比如问"2026 年 1 月发布的所有超过 10 万星的 GitHub 仓库里,哪个的 contributor 数量最多",模型需要自己去搜、去翻 GitHub、可能还要写脚本做统计,然后给出答案。

模型 BrowseComp
Gemini 3.1 Pro 85.9%
Claude Opus 4.6 84.0%
GPT-5.2 65.8%
Gemini 3 Pro 59.2%

几个值得注意的点。

Gemini 3.1 Pro 和 Claude Opus 4.6 差距只有 1.9 个百分点,基本在伯仲之间。GPT-5.2 在这里明显掉队,只有 65.8%。

和上一代相比,Gemini 从 59.2% 跳到 85.9%,提升了 26.7 个百分点。这是所有基准里绝对值提升最大的一项。Google 在搜索领域的积累在这里体现得很明显——Grounding with Google Search 是 Gemini 独有的内置工具,竞品没有。

如果你在做研究助手、市场调研工具、情报分析系统这类需要搜索增强的产品,BrowseComp 的数据对你最有参考价值。

APEX-Agents:33.5%

APEX-Agents 测试"长流程专业任务"。这个基准模拟的是真实工作中的复杂流程——多轮邮件往返处理、跨系统数据整合、多步骤审批流程等。每个任务可能需要十几步甚至几十步才能完成。

模型 APEX-Agents
Gemini 3.1 Pro 33.5%
Claude Opus 4.6 29.8%
GPT-5.2 23.0%
Gemini 3 Pro 18.4%

绝对分数很低,这是测试本身的设计——任务确实很难,涉及多步长链推理和跨系统操作。

但 33.5% 意味着什么?每 3 个长流程任务里只有 1 个能成功完成。剩下 2 个会在某一步出错——可能是搞错了邮件收件人,可能是在跨系统调数据时拿到了错误的字段,可能是在审批流程里跳过了某个必要步骤。

在不太关键的场景(比如内部工具自动化)里 33.5% 也许够用,毕竟相比 Gemini 3 Pro 的 18.4% 已经快翻倍了。但在客户面对面的场景(比如自动处理客户投诉邮件),三分之二的失败率太高了,上线之前必须有人工审核环节。

Terminal-Bench 2.0:68.5%

Terminal-Bench 测试模型在终端环境里执行编程任务。和 SWE-Bench 的区别是,SWE-Bench 给你一个代码仓库让你修 bug,Terminal-Bench 更开放,可能让你在空白环境里搭建一个服务、配置数据库、写脚本做数据处理等。

模型 Terminal-Bench 2.0
Gemini 3.1 Pro 68.5%
Claude Opus 4.6 65.4%
Claude Sonnet 4.6 59.1%
Gemini 3 Pro 56.9%
GPT-5.2 54.0%
GPT-5.3-Codex (Codex harness) 77.3%

Gemini 3.1 Pro 在统一评测框架(Terminus-2 harness)下领先。但 GPT-5.3-Codex 在自己优化的 harness 下能跑到 77.3%——比所有通用模型都高。不过 Codex 是一个专门针对编程优化的版本,不算通用模型的公平对比。

68.5% 对终端编程任务来说是可用的:大约每 3 个任务能成功完成 2 个。如果配合重试机制(失败了让模型换一种方式再试一次),实际成功率能更高。

τ2-bench:零售 90.8%,电信 99.3%

τ2-bench 是一个专注于工具调用的基准,分零售和电信两个场景。

零售场景:处理退货、查订单状态、计算折扣等。

模型 τ2-bench 零售 τ2-bench 电信
Gemini 3.1 Pro 90.8% 99.3%
Claude Opus 4.6 91.9% 99.3%
Claude Sonnet 4.6 91.7% 97.9%
GPT-5.2 82.0% 98.7%

零售场景 Claude 稍高 1 个百分点。电信场景 Gemini 和 Claude 打平。GPT-5.2 在零售场景掉了一截。

90%+ 的工具调用成功率对生产环境来说已经不错了。在真实的客服机器人场景中,如果 10 个工具调用请求里 9 个能成功,剩下 1 个触发人工转接,这是可接受的。

SWE-Bench 和 SWE-Bench Pro

代码修复相关的基准两家:

基准 Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2 GPT-5.3-Codex
SWE-Bench Verified 80.6% 80.8% 80.0%
SWE-Bench Pro 54.2% 55.6% 56.8%

SWE-Bench Verified 上三家基本打平,80% 左右。说明"给一个仓库,修一个 bug"这件事目前的顶级模型都做到了差不多的水平。

SWE-Bench Pro 更难(任务更多样化),Gemini 3.1 Pro 拿了 54.2%,GPT-5.2 55.6%,GPT-5.3-Codex 56.8%。这里 Gemini 略低,但差距不大。

一个不太好看的数字:GDPval-AA Elo

模型 GDPval-AA Elo
Claude Sonnet 4.6 1633
Claude Opus 4.6 1606
GPT-5.2 1462
Gemini 3.1 Pro 1317
Gemini 3 Pro 1195

GDPval-AA 的全称是 GDP Validated Assessment for Agentic Actions。它的评分方式和其他基准不同——不是看模型完成了多少题,而是让人类专家对模型的输出质量打分。问"做得好不好"而不是"做没做到"。

Gemini 3.1 Pro 1317,比 Claude Sonnet 4.6 低了 316 分,比 GPT-5.2 低了 145 分。这是所有基准里 Gemini 3.1 Pro 落后最多的一项。

这就是我说的矛盾所在。在 MCP Atlas、BrowseComp、Terminal-Bench 这些"做没做到"的基准上,Gemini 3.1 Pro 领先或持平。但在"做得好不好"的偏好评分上,大幅落后。

一种可能的解释:Gemini 3.1 Pro 在任务完成的"流程执行"上很强——它能正确地调用工具、按正确的顺序执行步骤、处理好中间状态。但最终给出的结果(报告文本、代码质量、分析深度)在人类专家看来不够好。Claude 可能在流程上没那么顺滑(MCP 分数低),但给出来的东西质量更高。

对开发者的选型建议

如果你做的是自动化工作流——重点是模型能不能自己跑通一个多步骤流程、能不能正确调用工具、失败了能不能重试——Gemini 3.1 Pro 的 MCP Atlas 和 BrowseComp 分数说明它在这个方向上是最强的。

如果你做的产品需要把模型的输出直接展示给用户或者专家审阅——比如生成分析报告、写研究综述、产出需要人工签字的文档——Claude 系列在专家偏好上的优势值得考虑。

如果你需要搜索增强的智能体——Gemini 3.1 Pro 的 BrowseComp 85.9% 和自带的 Google Search Grounding 工具是独特优势。Claude 和 GPT 没有原生的搜索集成。


参考资料

← 返回博客列表