我花了一周同时用三个 AI 写代码，结果出乎意料

二月份发生了一件挺魔幻的事。

三家全球最大的 AI 公司——Google、OpenAI、Anthropic——在半个月内接连发布了新模型。就像三个武林高手同时约在一个擂台上，各亮兵器。

作为一个靠写代码吃饭的人，我决定花一周时间，拿真实工作来试试它们。

不搞学术评测，不念参数表，就聊聊用起来什么感觉。

这三位是谁

Claude Opus 4.6，Anthropic 家的，2 月 5 号发的。特点是"聪明"，遇到难题它会先想很久再回答。价格不便宜，但准确率很高。

GPT-5.3-Codex，OpenAI 家的，也是 2 月 5 号。特点是"手快"，你让它干什么它立马就干，报错了自己改，改完继续跑。

Gemini 3.1 Pro，Google 家的，2 月 19 号姗姗来迟。特点是"便宜"，干同样的活，花的钱只有前两位的一半甚至更少。而且它能一次性"看"完一百万字的内容。

公司有个两年前写的模块，逻辑绕得像迷宫。没人愿意碰它，因为改一处会崩三处。

我先问了 Claude Opus 4.6。

它的反应让我印象很深——没有直接给代码，而是先用文字梳理了一遍：哪些函数互相依赖，哪里有隐藏的副作用，建议分几步改，每步改完怎么验证。

然后才开始写代码，每一步都能对上它之前的分析。

这种感觉很像跟一个经验丰富的工程师结对编程。他不着急，但说的每句话都有道理。

GPT-5.3-Codex 呢？上来就动手。十秒钟出了一版重构后的代码，能跑，但有两个边界条件没处理好。我指出来之后，它又花了十秒改好了。

速度快得吓人。但如果我自己经验不够，可能根本发现不了那两个问题。

Gemini 3.1 Pro 的表现介于两者之间。分析不如 Opus 深入，但比 GPT-5.3 仔细。考虑到价格差距，性价比很高。

我需要写一个脚本，自动从五个不同格式的 API 拉数据，清洗后存到数据库。

这回 GPT-5.3-Codex 大放异彩。

它写完脚本后，自己跑了一遍，发现某个 API 返回格式跟文档不一致，然后自动加了异常处理，再跑一遍，通了。我从头到尾没插手。

这种"自己动手丰衣足食"的能力，是另外两个模型做不到的。Opus 会把方案写得很完美，但它不会自己去"执行"。Gemini 也差不多。

如果你是那种每天要写很多小脚本的人，GPT-5.3 会让你上瘾。

有个项目要跟第三方对接，对方给了一大堆 PDF 文档，加起来几百页。

这活儿毫无悬念地交给了 Gemini 3.1 Pro。

原因很简单：它的上下文窗口有一百万 token，而且价格低。我把文档全部灌进去，问"对方的签名验证流程是什么？我们现有的代码需要改哪里？"

不到十秒，它从文档里摘出了关键段落，还定位到了我们代码库里需要改的三个文件。

同样的任务如果用 Opus，准确率可能差不多，但费用至少翻一倍。

三个模型的个性太鲜明了。

Opus 像个老教授——慢，话多，偶尔有点啰嗦，但说的都是干货。你遇到真正棘手的问题时，会庆幸有它在。

GPT-5.3 像个精力充沛的年轻同事——手快，胆大，偶尔毛躁，但效率极高。你跟它搭档干活会很爽。

Gemini 像个闷头干活的实用主义者——不出风头，但稳定、便宜、什么都能做个七八分。你公司报销不了昂贵的 API 费用时，它就是你的底牌。

我现在的做法是混着用：难题交给 Opus 想清楚，执行层面的活交给 GPT-5.3，大量阅读和检索交给 Gemini。

2026 年当程序员，工具是真的多。选哪个不重要，重要的是别只盯着一个用。

本文提及的模型数据来自各厂商官方文档和第三方基准测试平台，详见 Anthropic、OpenAI、Google AI。