这里的 Claude Opus 4.6,真的只适合有钱且有病的人(非贬义)
说实话,看到 Opus 4.6 定价的时候,我第一反应是 Anthropic 的产品经理脑子进水了。
输入 $5/百万 token,输出 $25/百万 token。
这是什么概念?Gemini 3 Pro 只要 $2/$12,GPT-5.2 更是打到了 $1.75/$14。在 2026 年这种"模型白菜价"的行情下,Anthropic 居然敢定出一个比竞品贵两倍的价格。
我本来是抱着"打假"的心态去测的。我想证明:除了钱多了没处花,正常人根本不需要 Opus 4.6。
但昨晚为了修一个棘手的并发 Bug,我不得不把这三个模型都拉出来溜了一圈。
结果……心态崩了。
第一个回合:GPT-5.2 的"瞎努力"
场景很简单:我有一段用了两年的 Python 数据同步脚本,最近老是莫名其妙丢数据。代码逻辑很乱,大概 400 行,里面充斥着各种 try-except 和硬编码的超时重试。
我先丢给了 GPT-5.2。
它的表现符合预期:迅速、自信。30 秒内就给我重构了一版,代码结构变得很漂亮,加上了类型注解,还把硬编码的配置提取到了环境变量。
我满怀信心地跑了一遍。
结果:数据丢得更多了。
我开始跟它 debug。 "是不是超时时间太短?" -> 它改了超时。 "是不是数据库连接池爆了?" -> 它加了连接池限制。 "是不是解析逻辑有问题?" -> 它又改了解析函数。
折腾了快 40 分钟,我们俩像两个盲人在摸象。它很听话,我指哪它改哪,但问题依旧。它根本没看懂这段烂代码背后那个隐晦的业务逻辑。
第二个回合:Opus 4.6 的"一句顶一万句"
实在没办法,我咬牙切了 Claude Opus 4.6。
看着 Token 计费在跳,我心在滴血。我把那坨烂代码原封不动丢进去,只说了一句:"帮我找出为什么会丢数据,不要重构,只找 Bug。"
它思考了大概 15 秒(Adaptive Thinking 在转圈)。
然后它输出了一段话,没给代码,只是一段分析:
"你的
sync_data函数里,在处理ConnectionError异常时,虽然加了重试逻辑,但在重试的finally块里误调用了cursor.close()。这意味着如果第一次重试失败,连接就已经被关闭了,后续的重试其实都是在空转,并没有真正发请求。这就是为什么日志里看着在重试,但数据其实没写入。"
我愣住了。
回头看了一眼代码,真的是这样。一个极度隐蔽的缩进错误,导致 finally 块执行早了。
GPT-5.2 刚才帮我重构了那么久,完全把这个逻辑错误"继承"了过去,甚至还帮我把错误的逻辑写得更优雅了。
Opus 4.6 一眼就看到了本质。
这就是那 $25 的价值吗?
那一刻我意识到:Opus 4.6 卖的不是"生成代码",而是"Code Review"。 它是那个坐在你旁边、经验丰富、一眼能看出你逻辑漏洞的老架构师。而 GPT-5.2 是那个手速很快、听话但不太动脑子的实习生。
第三个回合:Gemini 3 Pro 的"备胎修养"
修完 Bug,我顺便测了一下 Gemini 3 Pro。
既然 Opus 这么贵,能不能把文档分析这种累活交给便宜的 Gemini?
我把相关的 API 文档(大概 15 万 tokens)丢给 Gemini,让它帮我写个更新日志。
这次 Gemini 赢了。不是赢在质量,是赢在态度。
同样的文档,丢给 Opus 4.6,因为超过了 200K tokens 的首段价格保护区,提示输入费用直接翻倍。我算了一下,光读一遍文档就要 $3 刀。
丢给 Gemini 3 Pro,100 万上下文不加钱,一口吞。出来的结果中规中矩,虽然没有 Opus 那么深刻,但作为更新日志完全够用了。
结论:这根本不是"选谁"的问题
测完这轮,我对 Opus 4.6 的定价释怀了。
它不是拿来替代 GPT-5.2 的。它是拿来救命的。
- 90% 的日常活(写个 CRUD、写个脚本、润色个文档):用 GPT-5.2。便宜、快、够用。这种时候用 Opus 4.6 纯属浪费,而且它有时候会因为想得太多,反而把简单问题复杂化(Overthinking)。
- 10% 的救命活(修诡异 Bug、设计复杂架构、重构核心逻辑):直接上 Opus 4.6。别心疼钱。昨晚那个 Bug,如果靠我自己找或者靠 GPT-5.2 猜,可能得熬个通宵。Opus 4.6 花了我几美刀,但买回了我 4 个小时的睡眠。
- 纯体力的脏活(读超长文档、整理几十万字的会议记录):扔给 Gemini 3 Pro。耐操、便宜、不心疼。
所以,别问"Opus 4.6 到底值不值"。
当你半夜两点对着屏幕上一堆红色的报错崩溃时,你会觉得它卖得太便宜了。