2026 年 2 月 5 日：AI 编程的"分叉时刻"

今天早上起来刷推特，我人都傻了。

Anthropic 前脚刚发 Claude Opus 4.6，OpenAI 后脚就甩出 GPT-5.3-Codex。这俩商量好的吧？

一个是单兵作战的特种兵，一个是成建制的工程军团。熬夜看完这两家的技术文档，我最大的感受是：它们虽然都叫"编程模型"，但已经完全是两个物种了。

GPT-5.3-Codex：全栈单兵的极致

OpenAI 这次是真的急了。

在 Terminal-Bench 2.0 的官方榜单上，GPT-5.3-Codex 以 75.1% 的准确率拿下第一（官方报告称在 xHigh 模式下甚至能达到 77.3%）。相比之下，Claude Opus 4.6 以 69.9% 紧随其后。虽然只差 5 个百分点，但在 AI 编程这个头部竞争中，每一分都代表着处理极端复杂任务的稳定性差异。

更离谱的是 OSWorld-Verified（操作电脑系统的能力），它拿到了 64.7%。前代才 38%。这意味着它不仅仅是在编辑器里写代码，它还能像你一样去操作终端、浏览器，去调试环境。

它就是那个"超级个体"

OpenAI 的演示很直白：几天时间，从零手搓两个复杂游戏。不是写个贪吃蛇那种 Demo，而是支持多地图、道具系统的赛车游戏。

而且它最强的地方在于"交互"。它不是那种你丢个需求它就闷头干活的黑盒，它更像个坐你旁边的资深同事。它会跟你说："在这个文件里改这行可能会影响那个模块，确定要这么做吗？"

如果你是做 Web、App 开发，或者你是全栈工程师，GPT-5.3-Codex 绝对是目前手感最好的工具。它快、准、狠，能帮你把那些繁琐的 CRUD 和前端样式秒杀掉。

Claude Opus 4.6：这帮疯子搞了个工程队

但在看了 Anthropic 的博客后，我发现他们的侧重点完全不同。

相比于 OpenAI 对榜单分数的强调，Anthropic 更想展示真正的"工程肌肉"。他们搞了个 "Agent Team" 的压力测试。

烧掉 2 万美元，只为写个编译器

这帮人真的烧了 2 万美元 API 额度，让 16 个 Claude Opus 4.6 Agent 自己组队，在没有人类干预的情况下，并行工作了两周。

结果这群 AI 硬生生写出了一个 10 万行代码的 C 编译器（用 Rust 写）。

这个编译器能编译 Linux Kernel 6.9，能跑 Doom。这已经不是"写代码"了，这是在搞工业级基础设施。

在这个过程里，AI 自己分工：有的写代码，有的写文档，有的做 Review，甚至自己解决 Git 冲突。看到这里我有点头皮发麻——这不就是我们一直想搞但搞不起来的"完美工程团队"吗？

安全圈的新闻

还有一个消息值得关注：据 Axios 报道，Opus 4.6 在开源软件的测试中发现了大量的 0-day 漏洞风险。

它的深度推理能力，让它能看到那些人类肉眼和传统扫描器都忽略的深层逻辑漏洞。

如果你是搞底层系统、架构设计或者安全研究的，Opus 4.6 这种"深思熟虑"的能力，目前确实无可替代。

到底怎么选？

其实很简单，别被那些参数绕晕了。

选 GPT-5.3-Codex，如果你：

要干活：写应用、赶项目、做全栈。
要效率：希望它反应快，能实时跟你配合。
要省心：大部分常见问题它都能秒解。

选 Claude Opus 4.6，如果你：

要攻坚：那种查了两天 Google 也没头绪的诡异 Bug。
要设计：考虑上下游十几个系统的复杂架构。
要搞底层：写编译器、数据库内核、安全审计。
不差钱：$5/$25 的价格确实贵，但它能解决那些"有钱也没人能解决"的问题。

写在最后

今天过后，"写代码"这件事变了。

以后我们可能真的不再是 Writer，而是 Reviewer。甚至在 Claude 那边，我们连 Reviewer 都不是了，我们是 Product Manager，给 AI 团队派活，然后等着验收成果。

挺魔幻的，但也很刺激，不是吗？

(数据来源：OpenAI 与 Anthropic 2月5日官方博客)