Claude Opus 4.6 vs GPT-5.2 vs Gemini 3 Pro:三大旗舰模型横评,谁值得你的钱

Claude Opus 4.6 vs GPT-5.2 vs Gemini 3 Pro:三大旗舰模型横评,谁值得你的钱

2 月 5 日 Anthropic 发了 Opus 4.6,同一天 OpenAI 放出了 GPT-5.3-Codex。加上去年底发布的 GPT-5.2 和 Gemini 3 Pro,2026 年初的旗舰模型格局已经很清楚了。

不做泛泛的"各有千秋"式总结。这篇按场景拆,用数据说话,帮你决定具体任务用哪个。

基本参数对照

| | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro | |---|---|---|---| | 发布时间 | 2026.02.05 | 2025.12 | 2025.11 | | 上下文窗口 | 200K(1M beta) | 400K | 1M | | 最大输出 | 128K tokens | 128K tokens | 64K tokens | | 输入价格 | $5/MTok | $1.75/MTok | $2/MTok | | 输出价格 | $25/MTok | $14/MTok | $12/MTok | | 思考模式 | Adaptive Thinking | Chain-of-Thought | 内置推理 | | 工具调用 | MCP + 原生工具 | Function Calling | Function Calling |

第一个观察:Opus 4.6 是三者中最贵的。输入价是 GPT-5.2 的 2.86 倍,输出价是 1.79 倍。能力上必须有明显优势,否则这个溢价就站不住脚。

编码能力:最激烈的战场

Terminal-Bench 2.0(真实终端编码任务)

这是目前最被认可的 agentic 编码评估。我直接从 tbench.ai 排行榜拉的数据(2026-02-06):

| 排名 | Agent + 模型 | 分数 | |------|------------|------| | 1 | Simple Codex + GPT-5.3-Codex | 75.1% ±2.4 | | 2 | Droid + Claude Opus 4.6 | 69.9% ±2.5 | | 3 | Droid + GPT-5.2 | 64.9% ±2.8 | | 4 | Ante + Gemini 3 Pro | 64.7% ±2.7 | | 7 | Droid + Claude Opus 4.5 | 63.1% ±2.7 |

几个关键观察:

GPT-5.3-Codex 目前排第一,但它是跟 Opus 4.6 同一天发布的专用编码模型。如果只看通用模型,Opus 4.6 领先。

同一个 Agent(Droid),不同模型的差异:Opus 4.6 拿了 69.9%,GPT-5.2 拿了 64.9%,差了 5 个百分点。这 5 个百分点在工程实践中能明显感知到。意味着更少的返工次数、更高的一次性通过率。

Gemini 3 Pro 跟 GPT-5.2 几乎持平(64.7% vs 64.9%),但价格只有 GPT-5.2 的一半多一点。

还有一个容易忽略的细节:Anthropic 自己的 Claude Code agent 跑 Opus 4.6 的成绩没有上榜(可能还在跑)。排行榜上 Claude Code + Opus 4.5 只有 52.1%,而第三方 Droid agent + Opus 4.5 拿了 63.1%。这说明 agent 框架的选择对分数影响极大——不要只看模型能力,还要看你用什么工具链。

SWE-bench Verified(GitHub 真实 Bug 修复)

| 模型 | 分数 | |------|------| | Claude Opus 4.5 | 80.9% | | GPT-5.2 | ~80.0% | | Claude Opus 4.6 | 未公布精确值(有小幅回退) | | Gemini 3 Pro | 76.2% |

有意思的点:Opus 4.6 在 SWE-bench 上相比 4.5 出现了回退。The New Stack 的报道和 Anthropic 的发布文章都提到了这个。Anthropic 没有解释原因。

一种推测是:Opus 4.6 的 adaptive thinking 机制在需要"照着标准流程走"的任务上,可能不如 4.5 的固定 budget_tokens 稳定。SWE-bench 的任务相对结构化,而 Terminal-Bench 更开放——4.6 在后者上进步明显,在前者上略退。

对你的决策意味着:如果你的编码任务是"修 bug、过 CI"类的标准化流程,4.5 可能反而更稳。如果是"从头搭一个项目、做系统设计"之类的开放任务,4.6 更强。

推理能力:差异最大的维度

ARC-AGI-2(人类容易、AI 难的问题)

| 模型 | 分数 | |------|------| | Claude Opus 4.6 | 68.8% | | GPT-5.2 | 54.2% | | Gemini 3 Pro | 45.1% | | Claude Opus 4.5 | 37.6% |

这是三项对比里差距最大的。Opus 4.6 比 GPT-5.2 高了近 15 个百分点,比自家 4.5 高了 31 个百分点。

ARC-AGI-2 测的是"常识推理"——那些人类一看就知道答案、但 AI 需要真正"理解"才能做对的任务。这个指标跟你日常使用模型时的"聪不聪明"体感最相关。

Humanity's Last Exam(多学科复杂推理)

Opus 4.6 排第一。但这里有个重要注脚:Anthropic 跑 HLE 时给了 Claude 全套工具——web search、code execution、context compaction(最多 3M tokens)。相当于"开卷考试 + 计算器 + 上网查"。

如果其他模型是"闭卷考",而 Claude 是"开卷考",比出来的分数意义就打折了。这不是说 Anthropic 作弊——其他厂商也可以给模型配工具。但如果你只看分数不看条件,会高估模型的裸推理能力。

GDPval-AA(金融、法律知识工作)

Opus 4.6 比 GPT-5.2 高 144 Elo。翻译成人话:随机抽一个任务,Opus 4.6 大概 70% 的概率做得更好,GPT-5.2 大概 30% 的概率更好。

不是碾压,但优势很稳。如果你的团队做金融分析、法律合规类工作,Opus 4.6 目前确实是最佳选择。

长上下文能力

MRCR v2(大海捞针)

| 模型 | 8 针 / 1M 分数 | |------|--------------| | Claude Opus 4.6 | 76% | | Claude Sonnet 4.5 | 18.5% |

GPT-5.2 和 Gemini 3 Pro 的 MRCR v2 成绩没有公开数据可比。但从各家的上下文窗口大小看:

  • Gemini 3 Pro 的 1M 是原生的、价格不加钱
  • Opus 4.6 的 1M 是 beta 的、超过 200K 要加钱(输入翻倍)
  • GPT-5.2 的 400K 是上限

如果你的核心需求是"处理超长文档",Gemini 3 Pro 的性价比最高。1M 上下文不加钱,输入价只要 $2/MTok。Opus 4.6 的长上下文能力更强(抗 context rot),但价格是 Gemini 的 2.5 倍。

价格 / 性能比

这可能是最实际的对比维度。

假设一个标准任务:5K 输入 tokens + 2K 输出 tokens(不含思考)。

| 模型 | 单次成本 | 相对成本 | |------|---------|---------| | Gemini 3 Pro | $0.034 | 1.0x(基线) | | GPT-5.2 | $0.037 | 1.09x | | Claude Opus 4.6 | $0.075 | 2.21x |

Opus 4.6 每次调用的成本是 Gemini 3 Pro 的 2.2 倍。

但如果算"完成一个复杂任务的总成本"(包括重试、多轮对话),Opus 4.6 的高一次性通过率可能反而省钱。

举个实际例子:写一个带错误处理的 REST API。

  • Gemini 3 Pro:第一次给的代码能跑,但错误处理不全。需要两轮补充,总共 3 次调用。成本:$0.034 × 3 = $0.102
  • GPT-5.2:第一次代码质量不错,错误处理基本到位。需要一轮小修正,总共 2 次调用。成本:$0.037 × 2 = $0.074
  • Opus 4.6:第一次就给了完整的错误处理、输入验证和测试建议。只需要 1 次调用。成本:$0.075

这个场景下,GPT-5.2 和 Opus 4.6 的总成本几乎一样。但 Opus 省了你两轮来回的时间。

没有通用答案,取决于你任务的复杂度和对质量的要求。

实际使用体感

综合各方反馈(Early Access 合作伙伴、开发者社区、技术博客):

Opus 4.6 的优势体感

  • "给一个大任务,它自己会拆步骤,中途发现方向不对会回头改"(SentinelOne)
  • "长时间跑不掉线、不迷路"(Cursor)
  • "复杂 Agent 任务里,它知道什么时候该调 subagent、什么时候自己干"(Replit)
  • "金融报告的数字准确率明显好了"(Box)

GPT-5.2 的优势体感

  • 数学和逻辑推理更精确(AIME 满分)
  • 延迟更低(不需要等 adaptive thinking 的决策过程)
  • 价格比 Opus 4.6 低 60%
  • 400K 上下文窗口稳定可用

Gemini 3 Pro 的优势体感

  • 1M 上下文不加钱,处理长文档最省心
  • 多模态能力最强(视频、音频原生支持)
  • 价格最低
  • 跟 Google 生态深度集成

选型建议

不绕弯子,直接说结论:

写代码 / Agent 任务 → 先试 Opus 4.6。如果你用 Cursor、Claude Code 这类工具,它的 agentic 编码能力目前领先。但注意 SWE-bench 的小回退——标准化的 bug 修复任务,4.5 可能更稳。

数学 / 逻辑推理 → GPT-5.2。AIME 满分不是浪得虚名。纯计算和形式化推理场景,它还是最强的。

长文档处理 → Gemini 3 Pro。1M 上下文不加钱,性价比碾压。除非你需要 Opus 4.6 级别的"理解深度",否则没必要多花一倍的钱。

金融 / 法律分析 → Opus 4.6。GDPval-AA 的领先不是偶然,多个金融和法律领域的合作伙伴都给了正面反馈。

预算敏感 → Gemini 3 Pro 或 GPT-5.2。Opus 4.6 的能力领先,但价格也领先。对于 80% 的日常任务,便宜的模型就够了。

最佳实践:不要只用一个模型。简单任务用 Sonnet 4.5 或 Haiku 4.5(更便宜),只把 Opus 4.6 用在真正需要深度推理的硬任务上。用 Model Router 按任务复杂度自动分配模型,是目前最聪明的策略。

被忽视的变量:Agent 框架

Terminal-Bench 排行榜给了一个很重要的启示:同一个模型,配不同的 Agent 框架,分数差距可以超过 10 个百分点

Claude Opus 4.5 + Droid agent 拿了 63.1%,但 + Claude Code 只有 52.1%。GPT-5.2 + Droid 拿了 64.9%,但 + Terminus 2 只有 54.0%。

这意味着:如果你纠结"用 Opus 还是 GPT",不如先检查你的 Agent 框架是否充分发挥了模型能力。一个好的 Agent 框架带来的提升,可能比换模型更大。

实际调用对比

如果你想自己测试,这是三个模型的基础调用方式:

Claude Opus 4.6

import anthropic

client = anthropic.Anthropic(api_key="your-api-key")
response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "写一个 Python 快速排序"}]
)

GPT-5.2

from openai import OpenAI

client = OpenAI(api_key="your-api-key")
response = client.chat.completions.create(
    model="gpt-5.2",
    max_tokens=4096,
    messages=[{"role": "user", "content": "写一个 Python 快速排序"}]
)

Gemini 3 Pro

import google.generativeai as genai

genai.configure(api_key="your-api-key")
model = genai.GenerativeModel('gemini-3-pro')
response = model.generate_content("写一个 Python 快速排序")

注意 Opus 4.6 的 thinking 参数,这是 adaptive thinking 的开关。如果你想控制成本,可以加 output_config={"effort": "low"}

这场竞赛远没有结束

Opus 4.6 发布当天,OpenAI 就放出了 GPT-5.3-Codex,在 Terminal-Bench 上直接拿了第一(75.1%)。Google 还没出手。

模型能力的差距正在缩小。Terminal-Bench 上 Top 4 的分数挤在 64.7% 到 75.1% 之间,SWE-bench 上 Top 3 都在 76-81% 之间。旗舰模型之间的差异,已经不像一年前那样动辄 20 个百分点了。

在这种格局下,生态、定价、工具链整合能力可能比模型的 benchmark 差异更重要。Anthropic 押注 MCP 和 Claude Code 生态,OpenAI 押注 Codex 和 Agents SDK,Google 押注多模态和 Vertex 平台。选哪个模型,越来越像是选哪个生态。


参考链接

  • Terminal-Bench 2.0 排行榜:https://www.tbench.ai/leaderboard/terminal-bench/2.0
  • Anthropic 官方发布:https://anthropic.com/news/claude-opus-4-6
  • Jenova AI 模型对比:https://www.jenova.ai/zh/resources/gpt-vs-claude-vs-gemini
  • The New Stack 分析:https://thenewstack.io/anthropics-opus-4-6-is-a-step-change-for-the-enterprise/
  • UCStrategies 报道:https://ucstrategies.com/news/claude-opus-4-6-just-did-what-no-ai-model-has-ever-done-before
  • ARC-AGI-2:https://arcprize.org/arc-agi/2/
  • GDPval-AA 方法论:https://artificialanalysis.ai/methodology/intelligence-benchmarking#gdpval-aa
← 返回博客列表