三个顶级 AI 编程模型我全用了一周,说说真实感受

三个顶级 AI 编程模型我全用了一周,说说真实感受

Claude Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro,2026 年 2 月同时在线,到底选谁?

先说结论

没有银弹。

Claude Opus 4.6 适合想清楚再动手的人,GPT-5.3-Codex 适合先动手再说的人,Gemini 3.1 Pro 适合钱不够但活儿不少的人。

下面展开说。

背景

2 月 5 号 Anthropic 发了 Opus 4.6,同一天 OpenAI 推了 GPT-5.3-Codex,两周后 Google 又跟了 Gemini 3.1 Pro。三家几乎同时亮牌,这在 AI 历史上还是头一遭。

我的工作场景比较杂:日常写 TypeScript 后端,偶尔碰 Python 数据处理,还要维护几个老项目。所以我没有只测"写一个贪吃蛇"这种玩具题,而是真拿它们干了一周的活。

Claude Opus 4.6:那个什么都想解释清楚的同事

参数:1M 上下文(Beta),输入 $5 / 输出 $25 每百万 token

SWE-bench Verified 得分:80.8%

Opus 4.6 有四档思考等级(low / medium / high / max),我大部分时间开 high。

它最让我服气的一点是:遇到复杂问题,它会先花很长的"思考"阶段去理清依赖链,然后才开始写代码。我有个 Express 项目的中间件嵌套了五六层,丢给 Opus 重构,它先画了一个调用流程(文字版),标出哪些地方有副作用,然后一步步拆。最后出来的代码,我几乎没改就合了。

缺点也明显——慢,而且贵。同样的任务,GPT-5.3 可能 8 秒出结果,Opus 要 20 多秒,token 开销还翻一倍。

如果你的场景是核心业务逻辑、需要极高准确率的代码审查、或者复杂的架构决策,Opus 目前没有对手。

GPT-5.3-Codex:不问为什么,直接干

参数:400K 上下文(可用输入约 272K),输入 $3.50 / 输出 $28

Terminal-Bench 2.0 得分:77.3%

OpenAI 把这个模型定位成"Agent"——它不是来跟你聊天的,是来替你干活的。

实际体验下来,这个定位很准。我在 Cursor 里用它写一个 CLI 工具,它的风格是:先写一版,跑一下,报错了自己看日志,改完再跑。整个过程我基本在旁边看着。

它在终端操作上的能力远超另外两家。配置 Docker Compose、写 GitHub Actions、调试 Nginx 反向代理,这些"脏活"它干得又快又好。Terminal-Bench 77.3% 不是白拿的。

但它的问题也在这儿——有时候太"莽"了。一个需要谨慎处理的数据库迁移脚本,它上来就 DROP TABLE 然后重建,我要是没仔细看差点出事。

适合场景:脚本编写、CI/CD 配置、快速原型、批量文件处理。不适合让它单独做需要深思熟虑的架构决策。

Gemini 3.1 Pro:穷人的救星

参数:1M 上下文,输入 $2 / 输出 $12 每百万 token(≤200K 上下文)

LiveCodeBench Pro Elo:2,887

Gemini 3.1 Pro 的跑分在三者中并不是最高的,但它的性价比让人没法忽视。

输入价格是 Opus 的 40%,输出价格不到 Opus 的一半。而在实际使用中,大多数场景下它的表现跟 Opus 差距没有价格差距那么大。

我最常用它的场景是"读"——读文档、读代码库、做跨文件检索。有次我把一个 30 多个文件的 monorepo 整个灌进去,问"哪些地方调用了支付接口但没做异常处理",它不到 10 秒就给了完整列表,而且一个没漏。

Google 在长上下文处理上的技术积累确实深。如果你的日常工作涉及大量阅读理解(看文档、查代码、做 RAG),Gemini 是第一选择。

一个意外的发现:组合使用

用了一周之后,我发现最舒服的工作流不是"选一个用到底",而是三个搭配着来:

  1. 拿到新需求,先扔给 Opus 做技术方案和架构设计
  2. 方案定了,让 GPT-5.3 去生成具体代码、写测试、配 CI
  3. 遇到不熟悉的第三方库或者要翻老文档,交给 Gemini

这套流程跑下来,效率比只用一个模型高得多,成本也可控——最贵的 Opus 只用在最需要深度思考的环节。

价格对比(每百万 token)

模型 输入 输出
Claude Opus 4.6 $5 $25
GPT-5.3-Codex $3.50 $28
Gemini 3.1 Pro $2 $12

GPT-5.3 的输出其实比 Opus 还贵,但因为它推理快 25%,单次任务的总消耗不一定高。Gemini 在两头都有优势。

我的选择

如果只能留一个——说实话我留不下。

但如果非要排序:日常写代码用 GPT-5.3,复杂问题请教 Opus,其他时候默认 Gemini。

你呢?


参考资料

  1. Anthropic: Claude Opus 4.6
  2. GPT-5.3-Codex: What Just Shipped
  3. Google Vertex AI: Gemini 3.1 Pro
  4. Gemini API Pricing
  5. Claude Opus 4.6 Benchmarks
← 返回博客列表