这里的 Claude Opus 4.6，真的只适合有钱且有病的人（非贬义）

说实话，看到 Opus 4.6 定价的时候，我第一反应是 Anthropic 的产品经理脑子进水了。

输入 $5/百万 token，输出 $25/百万 token。

这是什么概念？Gemini 3 Pro 只要 $2/$12，GPT-5.2 更是打到了 $1.75/$14。在 2026 年这种"模型白菜价"的行情下，Anthropic 居然敢定出一个比竞品贵两倍的价格。

我本来是抱着"打假"的心态去测的。我想证明：除了钱多了没处花，正常人根本不需要 Opus 4.6。

但昨晚为了修一个棘手的并发 Bug，我不得不把这三个模型都拉出来溜了一圈。

结果……心态崩了。

第一个回合：GPT-5.2 的"瞎努力"

场景很简单：我有一段用了两年的 Python 数据同步脚本，最近老是莫名其妙丢数据。代码逻辑很乱，大概 400 行，里面充斥着各种 try-except 和硬编码的超时重试。

我先丢给了 GPT-5.2。

它的表现符合预期：迅速、自信。30 秒内就给我重构了一版，代码结构变得很漂亮，加上了类型注解，还把硬编码的配置提取到了环境变量。

我满怀信心地跑了一遍。

结果：数据丢得更多了。

我开始跟它 debug。 "是不是超时时间太短？" -> 它改了超时。 "是不是数据库连接池爆了？" -> 它加了连接池限制。 "是不是解析逻辑有问题？" -> 它又改了解析函数。

折腾了快 40 分钟，我们俩像两个盲人在摸象。它很听话，我指哪它改哪，但问题依旧。它根本没看懂这段烂代码背后那个隐晦的业务逻辑。

第二个回合：Opus 4.6 的"一句顶一万句"

实在没办法，我咬牙切了 Claude Opus 4.6。

看着 Token 计费在跳，我心在滴血。我把那坨烂代码原封不动丢进去，只说了一句："帮我找出为什么会丢数据，不要重构，只找 Bug。"

它思考了大概 15 秒（Adaptive Thinking 在转圈）。

然后它输出了一段话，没给代码，只是一段分析：

"你的 sync_data 函数里，在处理 ConnectionError 异常时，虽然加了重试逻辑，但在重试的 finally 块里误调用了 cursor.close()。这意味着如果第一次重试失败，连接就已经被关闭了，后续的重试其实都是在空转，并没有真正发请求。这就是为什么日志里看着在重试，但数据其实没写入。"

我愣住了。

回头看了一眼代码，真的是这样。一个极度隐蔽的缩进错误，导致 finally 块执行早了。

GPT-5.2 刚才帮我重构了那么久，完全把这个逻辑错误"继承"了过去，甚至还帮我把错误的逻辑写得更优雅了。

Opus 4.6 一眼就看到了本质。

这就是那 $25 的价值吗？

那一刻我意识到：Opus 4.6 卖的不是"生成代码"，而是"Code Review"。 它是那个坐在你旁边、经验丰富、一眼能看出你逻辑漏洞的老架构师。而 GPT-5.2 是那个手速很快、听话但不太动脑子的实习生。

第三个回合：Gemini 3 Pro 的"备胎修养"

修完 Bug，我顺便测了一下 Gemini 3 Pro。

既然 Opus 这么贵，能不能把文档分析这种累活交给便宜的 Gemini？

我把相关的 API 文档（大概 15 万 tokens）丢给 Gemini，让它帮我写个更新日志。

这次 Gemini 赢了。不是赢在质量，是赢在态度。

同样的文档，丢给 Opus 4.6，因为超过了 200K tokens 的首段价格保护区，提示输入费用直接翻倍。我算了一下，光读一遍文档就要 $3 刀。

丢给 Gemini 3 Pro，100 万上下文不加钱，一口吞。出来的结果中规中矩，虽然没有 Opus 那么深刻，但作为更新日志完全够用了。

结论：这根本不是"选谁"的问题

测完这轮，我对 Opus 4.6 的定价释怀了。

它不是拿来替代 GPT-5.2 的。它是拿来救命的。

90% 的日常活（写个 CRUD、写个脚本、润色个文档）：用 GPT-5.2。便宜、快、够用。这种时候用 Opus 4.6 纯属浪费，而且它有时候会因为想得太多，反而把简单问题复杂化（Overthinking）。
10% 的救命活（修诡异 Bug、设计复杂架构、重构核心逻辑）：直接上 Opus 4.6。别心疼钱。昨晚那个 Bug，如果靠我自己找或者靠 GPT-5.2 猜，可能得熬个通宵。Opus 4.6 花了我几美刀，但买回了我 4 个小时的睡眠。
纯体力的脏活（读超长文档、整理几十万字的会议记录）：扔给 Gemini 3 Pro。耐操、便宜、不心疼。

所以，别问"Opus 4.6 到底值不值"。

当你半夜两点对着屏幕上一堆红色的报错崩溃时，你会觉得它卖得太便宜了。