Claude Opus 4.6 vs GPT-5.2 vs Gemini 3 Pro：三大旗舰模型横评，谁值得你的钱

2 月 5 日 Anthropic 发了 Opus 4.6，同一天 OpenAI 放出了 GPT-5.3-Codex。加上去年底发布的 GPT-5.2 和 Gemini 3 Pro，2026 年初的旗舰模型格局已经很清楚了。

不做泛泛的"各有千秋"式总结。这篇按场景拆，用数据说话，帮你决定具体任务用哪个。

基本参数对照

| | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro | |---|---|---|---| | 发布时间 | 2026.02.05 | 2025.12 | 2025.11 | | 上下文窗口 | 200K（1M beta） | 400K | 1M | | 最大输出 | 128K tokens | 128K tokens | 64K tokens | | 输入价格 | $5/MTok | $1.75/MTok | $2/MTok | | 输出价格 | $25/MTok | $14/MTok | $12/MTok | | 思考模式 | Adaptive Thinking | Chain-of-Thought | 内置推理 | | 工具调用 | MCP + 原生工具 | Function Calling | Function Calling |

第一个观察：Opus 4.6 是三者中最贵的。输入价是 GPT-5.2 的 2.86 倍，输出价是 1.79 倍。能力上必须有明显优势，否则这个溢价就站不住脚。

编码能力：最激烈的战场

Terminal-Bench 2.0（真实终端编码任务）

这是目前最被认可的 agentic 编码评估。我直接从 tbench.ai 排行榜拉的数据（2026-02-06）：

| 排名 | Agent + 模型 | 分数 | |------|------------|------| | 1 | Simple Codex + GPT-5.3-Codex | 75.1% ±2.4 | | 2 | Droid + Claude Opus 4.6 | 69.9% ±2.5 | | 3 | Droid + GPT-5.2 | 64.9% ±2.8 | | 4 | Ante + Gemini 3 Pro | 64.7% ±2.7 | | 7 | Droid + Claude Opus 4.5 | 63.1% ±2.7 |

几个关键观察：

GPT-5.3-Codex 目前排第一，但它是跟 Opus 4.6 同一天发布的专用编码模型。如果只看通用模型，Opus 4.6 领先。

同一个 Agent（Droid），不同模型的差异：Opus 4.6 拿了 69.9%，GPT-5.2 拿了 64.9%，差了 5 个百分点。这 5 个百分点在工程实践中能明显感知到。意味着更少的返工次数、更高的一次性通过率。

Gemini 3 Pro 跟 GPT-5.2 几乎持平（64.7% vs 64.9%），但价格只有 GPT-5.2 的一半多一点。

还有一个容易忽略的细节：Anthropic 自己的 Claude Code agent 跑 Opus 4.6 的成绩没有上榜（可能还在跑）。排行榜上 Claude Code + Opus 4.5 只有 52.1%，而第三方 Droid agent + Opus 4.5 拿了 63.1%。这说明 agent 框架的选择对分数影响极大——不要只看模型能力，还要看你用什么工具链。

SWE-bench Verified（GitHub 真实 Bug 修复）

| 模型 | 分数 | |------|------| | Claude Opus 4.5 | 80.9% | | GPT-5.2 | ~80.0% | | Claude Opus 4.6 | 未公布精确值（有小幅回退） | | Gemini 3 Pro | 76.2% |

有意思的点：Opus 4.6 在 SWE-bench 上相比 4.5 出现了回退。The New Stack 的报道和 Anthropic 的发布文章都提到了这个。Anthropic 没有解释原因。

一种推测是：Opus 4.6 的 adaptive thinking 机制在需要"照着标准流程走"的任务上，可能不如 4.5 的固定 budget_tokens 稳定。SWE-bench 的任务相对结构化，而 Terminal-Bench 更开放——4.6 在后者上进步明显，在前者上略退。

对你的决策意味着：如果你的编码任务是"修 bug、过 CI"类的标准化流程，4.5 可能反而更稳。如果是"从头搭一个项目、做系统设计"之类的开放任务，4.6 更强。

推理能力：差异最大的维度

ARC-AGI-2（人类容易、AI 难的问题）

| 模型 | 分数 | |------|------| | Claude Opus 4.6 | 68.8% | | GPT-5.2 | 54.2% | | Gemini 3 Pro | 45.1% | | Claude Opus 4.5 | 37.6% |

这是三项对比里差距最大的。Opus 4.6 比 GPT-5.2 高了近 15 个百分点，比自家 4.5 高了 31 个百分点。

ARC-AGI-2 测的是"常识推理"——那些人类一看就知道答案、但 AI 需要真正"理解"才能做对的任务。这个指标跟你日常使用模型时的"聪不聪明"体感最相关。

Humanity's Last Exam（多学科复杂推理）

Opus 4.6 排第一。但这里有个重要注脚：Anthropic 跑 HLE 时给了 Claude 全套工具——web search、code execution、context compaction（最多 3M tokens）。相当于"开卷考试 + 计算器 + 上网查"。

如果其他模型是"闭卷考"，而 Claude 是"开卷考"，比出来的分数意义就打折了。这不是说 Anthropic 作弊——其他厂商也可以给模型配工具。但如果你只看分数不看条件，会高估模型的裸推理能力。

GDPval-AA（金融、法律知识工作）

Opus 4.6 比 GPT-5.2 高 144 Elo。翻译成人话：随机抽一个任务，Opus 4.6 大概 70% 的概率做得更好，GPT-5.2 大概 30% 的概率更好。

不是碾压，但优势很稳。如果你的团队做金融分析、法律合规类工作，Opus 4.6 目前确实是最佳选择。

长上下文能力

MRCR v2（大海捞针）

| 模型 | 8 针 / 1M 分数 | |------|--------------| | Claude Opus 4.6 | 76% | | Claude Sonnet 4.5 | 18.5% |

GPT-5.2 和 Gemini 3 Pro 的 MRCR v2 成绩没有公开数据可比。但从各家的上下文窗口大小看：

Gemini 3 Pro 的 1M 是原生的、价格不加钱
Opus 4.6 的 1M 是 beta 的、超过 200K 要加钱（输入翻倍）
GPT-5.2 的 400K 是上限

如果你的核心需求是"处理超长文档"，Gemini 3 Pro 的性价比最高。1M 上下文不加钱，输入价只要 $2/MTok。Opus 4.6 的长上下文能力更强（抗 context rot），但价格是 Gemini 的 2.5 倍。

价格 / 性能比

这可能是最实际的对比维度。

假设一个标准任务：5K 输入 tokens + 2K 输出 tokens（不含思考）。

| 模型 | 单次成本 | 相对成本 | |------|---------|---------| | Gemini 3 Pro | $0.034 | 1.0x（基线） | | GPT-5.2 | $0.037 | 1.09x | | Claude Opus 4.6 | $0.075 | 2.21x |

Opus 4.6 每次调用的成本是 Gemini 3 Pro 的 2.2 倍。

但如果算"完成一个复杂任务的总成本"（包括重试、多轮对话），Opus 4.6 的高一次性通过率可能反而省钱。

举个实际例子：写一个带错误处理的 REST API。

Gemini 3 Pro：第一次给的代码能跑，但错误处理不全。需要两轮补充，总共 3 次调用。成本：$0.034 × 3 = $0.102
GPT-5.2：第一次代码质量不错，错误处理基本到位。需要一轮小修正，总共 2 次调用。成本：$0.037 × 2 = $0.074
Opus 4.6：第一次就给了完整的错误处理、输入验证和测试建议。只需要 1 次调用。成本：$0.075

这个场景下，GPT-5.2 和 Opus 4.6 的总成本几乎一样。但 Opus 省了你两轮来回的时间。

没有通用答案，取决于你任务的复杂度和对质量的要求。

实际使用体感

综合各方反馈（Early Access 合作伙伴、开发者社区、技术博客）：

Opus 4.6 的优势体感：

"给一个大任务，它自己会拆步骤，中途发现方向不对会回头改"（SentinelOne）
"长时间跑不掉线、不迷路"（Cursor）
"复杂 Agent 任务里，它知道什么时候该调 subagent、什么时候自己干"（Replit）
"金融报告的数字准确率明显好了"（Box）

GPT-5.2 的优势体感：

数学和逻辑推理更精确（AIME 满分）
延迟更低（不需要等 adaptive thinking 的决策过程）
价格比 Opus 4.6 低 60%
400K 上下文窗口稳定可用

Gemini 3 Pro 的优势体感：

1M 上下文不加钱，处理长文档最省心
多模态能力最强（视频、音频原生支持）
价格最低
跟 Google 生态深度集成

选型建议

不绕弯子，直接说结论：

写代码 / Agent 任务 → 先试 Opus 4.6。如果你用 Cursor、Claude Code 这类工具，它的 agentic 编码能力目前领先。但注意 SWE-bench 的小回退——标准化的 bug 修复任务，4.5 可能更稳。

数学 / 逻辑推理 → GPT-5.2。AIME 满分不是浪得虚名。纯计算和形式化推理场景，它还是最强的。

长文档处理 → Gemini 3 Pro。1M 上下文不加钱，性价比碾压。除非你需要 Opus 4.6 级别的"理解深度"，否则没必要多花一倍的钱。

金融 / 法律分析 → Opus 4.6。GDPval-AA 的领先不是偶然，多个金融和法律领域的合作伙伴都给了正面反馈。

预算敏感 → Gemini 3 Pro 或 GPT-5.2。Opus 4.6 的能力领先，但价格也领先。对于 80% 的日常任务，便宜的模型就够了。

最佳实践：不要只用一个模型。简单任务用 Sonnet 4.5 或 Haiku 4.5（更便宜），只把 Opus 4.6 用在真正需要深度推理的硬任务上。用 Model Router 按任务复杂度自动分配模型，是目前最聪明的策略。

被忽视的变量：Agent 框架

Terminal-Bench 排行榜给了一个很重要的启示：同一个模型，配不同的 Agent 框架，分数差距可以超过 10 个百分点。

Claude Opus 4.5 + Droid agent 拿了 63.1%，但 + Claude Code 只有 52.1%。GPT-5.2 + Droid 拿了 64.9%，但 + Terminus 2 只有 54.0%。

这意味着：如果你纠结"用 Opus 还是 GPT"，不如先检查你的 Agent 框架是否充分发挥了模型能力。一个好的 Agent 框架带来的提升，可能比换模型更大。

实际调用对比

如果你想自己测试，这是三个模型的基础调用方式：

Claude Opus 4.6：

import anthropic

client = anthropic.Anthropic(api_key="your-api-key")
response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "写一个 Python 快速排序"}]
)

GPT-5.2：

from openai import OpenAI

client = OpenAI(api_key="your-api-key")
response = client.chat.completions.create(
    model="gpt-5.2",
    max_tokens=4096,
    messages=[{"role": "user", "content": "写一个 Python 快速排序"}]
)

Gemini 3 Pro：

import google.generativeai as genai

genai.configure(api_key="your-api-key")
model = genai.GenerativeModel('gemini-3-pro')
response = model.generate_content("写一个 Python 快速排序")

注意 Opus 4.6 的 thinking 参数，这是 adaptive thinking 的开关。如果你想控制成本，可以加 output_config={"effort": "low"}。

这场竞赛远没有结束

Opus 4.6 发布当天，OpenAI 就放出了 GPT-5.3-Codex，在 Terminal-Bench 上直接拿了第一（75.1%）。Google 还没出手。

模型能力的差距正在缩小。Terminal-Bench 上 Top 4 的分数挤在 64.7% 到 75.1% 之间，SWE-bench 上 Top 3 都在 76-81% 之间。旗舰模型之间的差异，已经不像一年前那样动辄 20 个百分点了。

在这种格局下，生态、定价、工具链整合能力可能比模型的 benchmark 差异更重要。Anthropic 押注 MCP 和 Claude Code 生态，OpenAI 押注 Codex 和 Agents SDK，Google 押注多模态和 Vertex 平台。选哪个模型，越来越像是选哪个生态。

参考链接

Terminal-Bench 2.0 排行榜：https://www.tbench.ai/leaderboard/terminal-bench/2.0
Anthropic 官方发布：https://anthropic.com/news/claude-opus-4-6
Jenova AI 模型对比：https://www.jenova.ai/zh/resources/gpt-vs-claude-vs-gemini
The New Stack 分析：https://thenewstack.io/anthropics-opus-4-6-is-a-step-change-for-the-enterprise/
UCStrategies 报道：https://ucstrategies.com/news/claude-opus-4-6-just-did-what-no-ai-model-has-ever-done-before
ARC-AGI-2：https://arcprize.org/arc-agi/2/
GDPval-AA 方法论：https://artificialanalysis.ai/methodology/intelligence-benchmarking#gdpval-aa