从 MCP Atlas 到 BrowseComp,Gemini 3.1 Pro 的智能体任务成绩怎么读
Model Card 里有一批智能体(Agentic)相关的基准测试,这类测试是现在 AI 圈讨论最多的评测维度。和做一道数学题或者背知识点不同,智能体任务要求模型连续决策、调用工具、在失败时自己修正——更接近真实工作中的使用场景。我把 Gemini 3.1 Pro 在这些测试上的数据整理了一下。
几个重要的智能体基准
MCP Atlas:69.2%
MCP Atlas 测试模型在多步骤工作流中使用 MCP(Model Context Protocol)工具的能力,任务包括调用 API、读写文件、执行命令等连续操作。
Gemini 3.1 Pro 得了 69.2%,Gemini 3 Pro 是 54.1%,提升了约 15 个百分点,是所有基准里环比提升最大的之一。Claude Opus 4.6 是 59.5%,Claude Sonnet 4.6 是 61.3%,GPT-5.2 是 60.6%。Gemini 3.1 Pro 在这个测试上领先明显。
MCP 是 Anthropic 推出的工具调用协议,所以看到 Gemini 在这里领先 Claude 有点反直觉。
BrowseComp:85.9%
BrowseComp 测的是"搜索智能体"的能力:给模型一个需要搜索、浏览、综合信息才能回答的问题,工具是搜索+Python+浏览器。
Gemini 3.1 Pro 得了 85.9%,Claude Opus 4.6 是 84.0%,GPT-5.2 是 65.8%,Gemini 3 Pro 是 59.2%。和上代相比提升 26 个百分点,这个提升幅度很大。GPT-5.2 在这里明显落后。
如果你在做搜索增强的问答或者研究助手类应用,这个数据比较直接相关。
APEX-Agents:33.5%
APEX-Agents 测试"长流程专业任务",任务场景模拟真实工作中的复杂流程,比如多轮邮件处理、跨系统数据整合等。
这个基准整体分数偏低是正常的,因为任务设计本来就很难。Gemini 3.1 Pro 33.5%,Claude Opus 4.6 是 29.8%,GPT-5.2 是 23.0%,Gemini 3 Pro 是 18.4%。Gemini 3.1 Pro 在这里领先,但绝对分数还是低的。
33.5% 意味着每三个长流程专业任务里还是会失败两个。这个数字放到真实生产环境里要小心——专业任务一旦失败,代价比回答一道问答题大得多。
Terminal-Bench 2.0:68.5%
Terminal-Bench 测试模型在终端环境里执行编程任务的能力,用 Terminus-2 评测框架。
Gemini 3.1 Pro 68.5%,Claude Opus 4.6 65.4%,GPT-5.2 54.0%,Gemini 3 Pro 56.9%。这个维度 Gemini 3.1 Pro 有比较清楚的优势。注意 GPT 系列有 GPT-5.3-Codex 专门做编程的版本,在一些 Codex 优化的 harness 下可以跑到 77.3%,但那是专门调过的版本,不在这个统一对比里。
τ2-bench:零售 90.8%,电信 99.3%
τ2-bench 是工具使用基准,分零售和电信两个场景。
零售场景:Gemini 3.1 Pro 90.8%,Gemini 3 Pro 85.3%,Claude Opus 4.6 91.9%,GPT-5.2 82.0%。Claude 稍微高一点。
电信场景:Gemini 3.1 Pro 99.3%,Claude 99.3%,GPT-5.2 98.7%。几乎无差别。
有一个数字值得多看一眼
GDPval-AA Elo 评分:Gemini 3.1 Pro 1317,Claude Sonnet 4.6 1633,Opus 4.6 1606,GPT-5.2 1462。
这个基准测的是"专家级任务的人类偏好评分",不是自动评测,而是由专家打分。Gemini 3.1 Pro 在这里的分数明显低于 Claude 两个版本,也低于 GPT-5.2。这说明什么?智能体任务流程上 Gemini 3.1 Pro 能完成得很好(MCP、BrowseComp 的数字说明了这一点),但输出的内容质量在专家眼里不如 Claude。
这两件事可以同时成立:流程执行能力强,但最终输出让专家打分时不够好。如果你的应用是偏自动化的工作流,Gemini 3.1 Pro 的智能体基准分数很有参考价值。如果你的应用需要输出给人类专家审阅评判,Claude 的 GDPval-AA Elo 差距值得考虑。
参考资料
- Gemini 3.1 Pro Model Card(智能体基准测试全表),Google DeepMind:https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Gemini 3.1 Pro Technical Deep Dive,n1n.ai:https://explore.n1n.ai/blog/gemini-3-1-pro-technical-deep-dive-performance-2026-02-20
- Gemini 3.1 Pro vs Claude Opus 4.6 对比分析,AI Free API:https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6
- Best AI Models 2026: Gemini vs Claude vs GPT,Serenities AI:https://serenitiesai.com/articles/best-ai-models-comparison-2026