2026 年 2 月 5 日:AI 编程的"分叉时刻"
今天早上起来刷推特,我人都傻了。
Anthropic 前脚刚发 Claude Opus 4.6,OpenAI 后脚就甩出 GPT-5.3-Codex。这俩商量好的吧?
一个是单兵作战的特种兵,一个是成建制的工程军团。熬夜看完这两家的技术文档,我最大的感受是:它们虽然都叫"编程模型",但已经完全是两个物种了。
GPT-5.3-Codex:全栈单兵的极致
OpenAI 这次是真的急了。
在 Terminal-Bench 2.0 的官方榜单上,GPT-5.3-Codex 以 75.1% 的准确率拿下第一(官方报告称在 xHigh 模式下甚至能达到 77.3%)。相比之下,Claude Opus 4.6 以 69.9% 紧随其后。虽然只差 5 个百分点,但在 AI 编程这个头部竞争中,每一分都代表着处理极端复杂任务的稳定性差异。
更离谱的是 OSWorld-Verified(操作电脑系统的能力),它拿到了 64.7%。前代才 38%。这意味着它不仅仅是在编辑器里写代码,它还能像你一样去操作终端、浏览器,去调试环境。
它就是那个"超级个体"
OpenAI 的演示很直白:几天时间,从零手搓两个复杂游戏。不是写个贪吃蛇那种 Demo,而是支持多地图、道具系统的赛车游戏。
而且它最强的地方在于"交互"。它不是那种你丢个需求它就闷头干活的黑盒,它更像个坐你旁边的资深同事。它会跟你说:"在这个文件里改这行可能会影响那个模块,确定要这么做吗?"
如果你是做 Web、App 开发,或者你是全栈工程师,GPT-5.3-Codex 绝对是目前手感最好的工具。它快、准、狠,能帮你把那些繁琐的 CRUD 和前端样式秒杀掉。
Claude Opus 4.6:这帮疯子搞了个工程队
但在看了 Anthropic 的博客后,我发现他们的侧重点完全不同。
相比于 OpenAI 对榜单分数的强调,Anthropic 更想展示真正的"工程肌肉"。他们搞了个 "Agent Team" 的压力测试。
烧掉 2 万美元,只为写个编译器
这帮人真的烧了 2 万美元 API 额度,让 16 个 Claude Opus 4.6 Agent 自己组队,在没有人类干预的情况下,并行工作了两周。
结果这群 AI 硬生生写出了一个 10 万行代码的 C 编译器(用 Rust 写)。
这个编译器能编译 Linux Kernel 6.9,能跑 Doom。这已经不是"写代码"了,这是在搞工业级基础设施。
在这个过程里,AI 自己分工:有的写代码,有的写文档,有的做 Review,甚至自己解决 Git 冲突。看到这里我有点头皮发麻——这不就是我们一直想搞但搞不起来的"完美工程团队"吗?
安全圈的新闻
还有一个消息值得关注:据 Axios 报道,Opus 4.6 在开源软件的测试中发现了大量的 0-day 漏洞风险。
它的深度推理能力,让它能看到那些人类肉眼和传统扫描器都忽略的深层逻辑漏洞。
如果你是搞底层系统、架构设计或者安全研究的,Opus 4.6 这种"深思熟虑"的能力,目前确实无可替代。
到底怎么选?
其实很简单,别被那些参数绕晕了。
选 GPT-5.3-Codex,如果你:
- 要干活:写应用、赶项目、做全栈。
- 要效率:希望它反应快,能实时跟你配合。
- 要省心:大部分常见问题它都能秒解。
选 Claude Opus 4.6,如果你:
- 要攻坚:那种查了两天 Google 也没头绪的诡异 Bug。
- 要设计:考虑上下游十几个系统的复杂架构。
- 要搞底层:写编译器、数据库内核、安全审计。
- 不差钱:$5/$25 的价格确实贵,但它能解决那些"有钱也没人能解决"的问题。
写在最后
今天过后,"写代码"这件事变了。
以后我们可能真的不再是 Writer,而是 Reviewer。甚至在 Claude 那边,我们连 Reviewer 都不是了,我们是 Product Manager,给 AI 团队派活,然后等着验收成果。
挺魔幻的,但也很刺激,不是吗?
(数据来源:OpenAI 与 Anthropic 2月5日官方博客)