我花了一周同时用三个 AI 写代码,结果出乎意料

我花了一周同时用三个 AI 写代码,结果出乎意料

二月份发生了一件挺魔幻的事。

三家全球最大的 AI 公司——Google、OpenAI、Anthropic——在半个月内接连发布了新模型。就像三个武林高手同时约在一个擂台上,各亮兵器。

作为一个靠写代码吃饭的人,我决定花一周时间,拿真实工作来试试它们。

不搞学术评测,不念参数表,就聊聊用起来什么感觉。


这三位是谁

Claude Opus 4.6,Anthropic 家的,2 月 5 号发的。特点是"聪明",遇到难题它会先想很久再回答。价格不便宜,但准确率很高。

GPT-5.3-Codex,OpenAI 家的,也是 2 月 5 号。特点是"手快",你让它干什么它立马就干,报错了自己改,改完继续跑。

Gemini 3.1 Pro,Google 家的,2 月 19 号姗姗来迟。特点是"便宜",干同样的活,花的钱只有前两位的一半甚至更少。而且它能一次性"看"完一百万字的内容。


第一天:我让它们重构一段老代码

公司有个两年前写的模块,逻辑绕得像迷宫。没人愿意碰它,因为改一处会崩三处。

我先问了 Claude Opus 4.6。

它的反应让我印象很深——没有直接给代码,而是先用文字梳理了一遍:哪些函数互相依赖,哪里有隐藏的副作用,建议分几步改,每步改完怎么验证。

然后才开始写代码,每一步都能对上它之前的分析。

这种感觉很像跟一个经验丰富的工程师结对编程。他不着急,但说的每句话都有道理。

GPT-5.3-Codex 呢?上来就动手。十秒钟出了一版重构后的代码,能跑,但有两个边界条件没处理好。我指出来之后,它又花了十秒改好了。

速度快得吓人。但如果我自己经验不够,可能根本发现不了那两个问题。

Gemini 3.1 Pro 的表现介于两者之间。分析不如 Opus 深入,但比 GPT-5.3 仔细。考虑到价格差距,性价比很高。


第三天:写自动化脚本

我需要写一个脚本,自动从五个不同格式的 API 拉数据,清洗后存到数据库。

这回 GPT-5.3-Codex 大放异彩。

它写完脚本后,自己跑了一遍,发现某个 API 返回格式跟文档不一致,然后自动加了异常处理,再跑一遍,通了。我从头到尾没插手。

这种"自己动手丰衣足食"的能力,是另外两个模型做不到的。Opus 会把方案写得很完美,但它不会自己去"执行"。Gemini 也差不多。

如果你是那种每天要写很多小脚本的人,GPT-5.3 会让你上瘾。


第五天:翻一堆旧文档

有个项目要跟第三方对接,对方给了一大堆 PDF 文档,加起来几百页。

这活儿毫无悬念地交给了 Gemini 3.1 Pro。

原因很简单:它的上下文窗口有一百万 token,而且价格低。我把文档全部灌进去,问"对方的签名验证流程是什么?我们现有的代码需要改哪里?"

不到十秒,它从文档里摘出了关键段落,还定位到了我们代码库里需要改的三个文件。

同样的任务如果用 Opus,准确率可能差不多,但费用至少翻一倍。


一周后的感受

三个模型的个性太鲜明了。

Opus 像个老教授——慢,话多,偶尔有点啰嗦,但说的都是干货。你遇到真正棘手的问题时,会庆幸有它在。

GPT-5.3 像个精力充沛的年轻同事——手快,胆大,偶尔毛躁,但效率极高。你跟它搭档干活会很爽。

Gemini 像个闷头干活的实用主义者——不出风头,但稳定、便宜、什么都能做个七八分。你公司报销不了昂贵的 API 费用时,它就是你的底牌。

我现在的做法是混着用:难题交给 Opus 想清楚,执行层面的活交给 GPT-5.3,大量阅读和检索交给 Gemini。

2026 年当程序员,工具是真的多。选哪个不重要,重要的是别只盯着一个用。


本文提及的模型数据来自各厂商官方文档和第三方基准测试平台,详见 AnthropicOpenAIGoogle AI

← 返回博客列表