Opus 4.6 封神,GPT-5.3 拼命,Gemini 3.1 掀桌

Opus 4.6 封神,GPT-5.3 拼命,Gemini 3.1 掀桌

这个二月简直让人没法睡。

先是 Anthropic 和 OpenAI 在月初前后脚发布了 Claude Opus 4.6 和 GPT-5.3-Codex,紧接着 Google 又扔出了 Gemini 3.1 Pro。短短两周,我的各种 API Key 账单直接爆表,脑子也快跟不上了。

技术圈里现在乱成一锅粥。有人说 Opus 是"唯一真神",有人说 GPT-5.3 才是干活的,还有人捧着 Gemini 的账单说"真香"。

我花了一周时间,把这三个模型都跑了一遍,主要是在写代码、修 Bug 和读文档这些老本行上。咱们不整那些虚头巴脑的词,直接聊聊到底该用哪个。

三位"选手"的底细

先快速过一遍参数,心里有个底:

  • Claude Opus 4.6 (Anthropic)

    • 特点:除了贵没毛病。号称"思考深度"最强,现在的 Beta 版支持 1M 上下文。
    • 杀手锏:推理能力和代码重构。
    • 价格:输入 $5 / 输出 $25 (每百万 token,标准上下文)。
  • GPT-5.3-Codex (OpenAI)

    • 特点:速度快,专为"Agent"设计。上下文 400K(除去输出实际可用约 272K),比另外两家小,但它在终端 (Terminal) 里跑得飞快。
    • 杀手锏:执行力,尤其是写脚本、跑命令、自己修错。
    • 价格:输入 $3.50 / 输出 $28 (标准版)。
  • Gemini 3.1 Pro (Google)

    • 特点:性价比之王。1M 上下文,跑分不输 Opus 太多,但便宜得吓人。
    • 杀手锏:便宜,多模态(看图看视频贼快)。
    • 价格:输入 $2 / 输出 $12 (≤200k 上下文)。

实战:代码能力谁更强?

光看跑分没意思(虽然 Opus 在 SWE-bench Verified 上拿了 80.8% [2],GPT-5.3 在 Terminal-Bench 上拿了 77.3% [6]),我更在意实际用起来的手感。

1. 复杂逻辑与重构 (Winner: Claude Opus 4.6)

如果你扔给它一堆乱七八糟的屎山代码,问它"这玩意儿怎么重构?",Opus 4.6 是目前唯一能给我讲明白思路,还能按部就班改对的模型。

它的"思考模式"确实有点东西。它不会上来就写代码,而是先分析依赖关系,指出潜在风险。那种感觉就像跟一个高级架构师结对编程。虽然慢点,贵点,但写出来的代码能跑,而且逻辑清晰。

2. 干脏活累活与自动化 (Winner: GPT-5.3-Codex)

GPT-5.3-Codex 明显是冲着"干活"去的。OpenAI 甚至说这是第一个"自己参与构建自己"的模型。

在 Cursor 或者命令行里用它,你会发现它特别"躁"。它不像 Opus 那么谨小慎微,而是上手就干。写个 Python 脚本,配置个 Docker,或者修个 Nginx 配置,它反应极快。

特别是在处理报错的时候,GPT-5.3 有种"不达目的不罢休"的劲头。报错了?它自己读错误日志,自己改,再试,直到跑通。对于运维 (DevOps) 和脚本小子来说,它是神器。

3. 长文档与性价比 (Winner: Gemini 3.1 Pro)

Gemini 3.1 Pro 的定位很贼。它没想在推理上硬刚 Opus,也没想在速度上秒杀 GPT,但它把"便宜大碗"做到了极致。

我有次扔进去几十个 PDF 文档和一堆代码库,问它"A 项目里怎么调用 B 文档里的接口?"。Gemini 几乎秒回,而且准确度惊人。

考虑到它的价格只有 Opus 的一半不到,如果你是做 RAG (检索增强生成) 或者需要大量读代码、读文档的任务,Gemini 是首选。Google 在处理超长上下文这块,确实有点黑科技。

社区都在吵什么?

逛了一圈 GitHub 和 X,原本以为大家会为了参数吵翻天,结果画风出奇一致。

有人把 Opus 比作那个不苟言笑但技术巨牛的 Tech Lead——稍微有点贵,话也密,但他是真能教你写好代码。

GPT-5.3-Codex 呢?那是大家的超级实习生。不需要睡觉,随叫随到,修 Bug 比写 Bug 还快,这种干活劲头谁不爱?

至于 Gemini 3.1 Pro,我看到最损但也最真实的评价是:"这价格,还要什么自行车?它就是我的亲爹。"

还有一个很有趣的现象:组合拳。现在很多人(包括我)开始用 Opus 做顶层设计,甚至让它写测试用例;然后甩给 GPT-5.3 去生成具体的样板代码;最后,那些几百页的文档检索和上下文补充,统统丢给 Gemini。

结论:怎么选?

别指望一个模型通吃。

  • 选 Claude Opus 4.6:如果你在做核心架构、复杂算法,或者需要极高的代码准确率,不在乎多花点钱。
  • 选 GPT-5.3-Codex:如果你主要是写脚本、搞运维、修 Bug,或者需要一个能自己在终端里"跑起来"的助手。
  • 选 Gemini 3.1 Pro:如果你预算有限,或者需要处理海量文档、代码库,做全库搜索和问答。

2026 年这开局,真是够刺激的。不管是 Google、OpenAI 还是 Anthropic,这波"军备竞赛"受益的还是咱们开发者。

只要付得起账单就行。

参考资料

综合对比

  1. Claude Opus 4.6 vs GPT-5.3 Codex vs Gemini 3 Pro Comparison
  2. Claude Opus 4.6 vs GPT-5.3-Codex: Complete Comparison Guide

Claude Opus 4.6 3. Anthropic News: Claude Opus 4.6 4. GitHub Changelog: Claude Opus 4.6 for Copilot 5. Claude Opus 4.6 Complete Guide

GPT-5.3-Codex 6. GPT-5.3-Codex Released: What Just Shipped 7. LLM Stats: GPT-5.3 Codex 8. OpenAI Codex Pricing

Gemini 3.1 Pro 9. Google AI for Developers: Gemini API Pricing 10. Vertex AI Models: Gemini 3.1 Pro 11. DevTK: Gemini 3.1 Pro Specs

← 返回博客列表