从 MCP Atlas 到 BrowseComp，Gemini 3.1 Pro 的智能体任务成绩怎么读

Model Card 里有一批智能体（Agentic）相关的基准测试，这类测试是现在 AI 圈讨论最多的评测维度。和做一道数学题或者背知识点不同，智能体任务要求模型连续决策、调用工具、在失败时自己修正——更接近真实工作中的使用场景。我把 Gemini 3.1 Pro 在这些测试上的数据整理了一下。

几个重要的智能体基准

MCP Atlas：69.2%

MCP Atlas 测试模型在多步骤工作流中使用 MCP（Model Context Protocol）工具的能力，任务包括调用 API、读写文件、执行命令等连续操作。

Gemini 3.1 Pro 得了 69.2%，Gemini 3 Pro 是 54.1%，提升了约 15 个百分点，是所有基准里环比提升最大的之一。Claude Opus 4.6 是 59.5%，Claude Sonnet 4.6 是 61.3%，GPT-5.2 是 60.6%。Gemini 3.1 Pro 在这个测试上领先明显。

MCP 是 Anthropic 推出的工具调用协议，所以看到 Gemini 在这里领先 Claude 有点反直觉。

BrowseComp：85.9%

BrowseComp 测的是"搜索智能体"的能力：给模型一个需要搜索、浏览、综合信息才能回答的问题，工具是搜索+Python+浏览器。

Gemini 3.1 Pro 得了 85.9%，Claude Opus 4.6 是 84.0%，GPT-5.2 是 65.8%，Gemini 3 Pro 是 59.2%。和上代相比提升 26 个百分点，这个提升幅度很大。GPT-5.2 在这里明显落后。

如果你在做搜索增强的问答或者研究助手类应用，这个数据比较直接相关。

APEX-Agents：33.5%

APEX-Agents 测试"长流程专业任务"，任务场景模拟真实工作中的复杂流程，比如多轮邮件处理、跨系统数据整合等。

这个基准整体分数偏低是正常的，因为任务设计本来就很难。Gemini 3.1 Pro 33.5%，Claude Opus 4.6 是 29.8%，GPT-5.2 是 23.0%，Gemini 3 Pro 是 18.4%。Gemini 3.1 Pro 在这里领先，但绝对分数还是低的。

33.5% 意味着每三个长流程专业任务里还是会失败两个。这个数字放到真实生产环境里要小心——专业任务一旦失败，代价比回答一道问答题大得多。

Terminal-Bench 2.0：68.5%

Terminal-Bench 测试模型在终端环境里执行编程任务的能力，用 Terminus-2 评测框架。

Gemini 3.1 Pro 68.5%，Claude Opus 4.6 65.4%，GPT-5.2 54.0%，Gemini 3 Pro 56.9%。这个维度 Gemini 3.1 Pro 有比较清楚的优势。注意 GPT 系列有 GPT-5.3-Codex 专门做编程的版本，在一些 Codex 优化的 harness 下可以跑到 77.3%，但那是专门调过的版本，不在这个统一对比里。

τ2-bench：零售 90.8%，电信 99.3%

τ2-bench 是工具使用基准，分零售和电信两个场景。

零售场景：Gemini 3.1 Pro 90.8%，Gemini 3 Pro 85.3%，Claude Opus 4.6 91.9%，GPT-5.2 82.0%。Claude 稍微高一点。

电信场景：Gemini 3.1 Pro 99.3%，Claude 99.3%，GPT-5.2 98.7%。几乎无差别。

有一个数字值得多看一眼

GDPval-AA Elo 评分：Gemini 3.1 Pro 1317，Claude Sonnet 4.6 1633，Opus 4.6 1606，GPT-5.2 1462。

这个基准测的是"专家级任务的人类偏好评分"，不是自动评测，而是由专家打分。Gemini 3.1 Pro 在这里的分数明显低于 Claude 两个版本，也低于 GPT-5.2。这说明什么？智能体任务流程上 Gemini 3.1 Pro 能完成得很好（MCP、BrowseComp 的数字说明了这一点），但输出的内容质量在专家眼里不如 Claude。

这两件事可以同时成立：流程执行能力强，但最终输出让专家打分时不够好。如果你的应用是偏自动化的工作流，Gemini 3.1 Pro 的智能体基准分数很有参考价值。如果你的应用需要输出给人类专家审阅评判，Claude 的 GDPval-AA Elo 差距值得考虑。

参考资料

Gemini 3.1 Pro Model Card（智能体基准测试全表），Google DeepMind：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Gemini 3.1 Pro Technical Deep Dive，n1n.ai：https://explore.n1n.ai/blog/gemini-3-1-pro-technical-deep-dive-performance-2026-02-20
Gemini 3.1 Pro vs Claude Opus 4.6 对比分析，AI Free API：https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6
Best AI Models 2026: Gemini vs Claude vs GPT，Serenities AI：https://serenitiesai.com/articles/best-ai-models-comparison-2026