Claude Opus 4.7 为什么会口碑两极分化
Anthropic 刚把 Claude Opus 4.7 推出来,网上的反应就很典型地分成了两拨。
一拨人觉得,这可能是 Claude 近一段时间最像“升级版”的一次更新。编码更稳了,长任务更能跑了,看图能力突然上了一个台阶。另一拨人却不太买账,理由也很直接:老工作流被打断了,提示词要重写,接口参数还变了,表面上价格没涨,实际跑起来却可能更慢、更费 token。
如果只看榜单,4.7 确实很好看。但它真正引发讨论的地方,不在“又强了多少”,而在于它把 Claude 往更强调工程纪律和系统适配的方向推了一步。有人喜欢,也有人正是从这里开始不舒服。
先别急着争强不强,4.7 变的不是一点点
这次 4.7 最明显的提升,还是复杂编码和长链路任务。
官方给出的信号很集中。CursorBench 从 58% 提到 70%,Rakuten-SWE-Bench 的生产任务解决量是 4.6 的 3 倍,视觉分辨率也从 1568px / 1.15MP 提到了 2576px / 3.75MP。这不是那种“体感可能有一点变好”的升级,而是在代码代理、截图理解、复杂界面识别这些场景里,很容易感到区别。
更关键的是它的行为变了。
Anthropic 在说明里写得很直白:4.7 会更字面地执行指令,不再像早先版本那样,帮你把没说出口的话自动补上。对很多工程团队来说,这反而是好事。真正上生产以后,大家最怕的不是模型偶尔笨一点,而是它自作聪明。4.7 想解决的,就是这种不受控感。
所以从技术解读上看,Claude Opus 4.7 更像一次“工程化升级”。它不是单纯把分数刷高,而是在往几个方向同时收紧:更严格的指令跟随、更强的长任务一致性、更高的视觉精度、更多自我校验,还有更明确的 effort 分层。
夸它的人,到底在夸什么
如果去看这两天的公开讨论和首日反馈,愿意给 4.7 高评价的人,基本都盯着三件事。
第一件事,是它终于更像一个能长期盯任务的人。
不少人提到,4.7 在复杂任务里没有以前那么容易半路走偏,尤其是多步编码、调试和代码审查这类场景。官方也反复强调它更会自检,遇到难题时不会太快放弃。做过 agent 的团队都知道,长链路更稳定,往往比单轮更聪明更重要。
第二件事,是视觉能力的提升来得很实用。
以前很多模型说自己能“看图”,真到密集截图、复杂图表、小字号后台界面时,还是容易看漏。4.7 把图像分辨率上限提上去以后,受益最大的是那些很“脏”的真实任务,比如读 dashboard、认按钮、抓取图表信息、理解文档截图。对自动化测试、文档分析这类场景来说,这个升级很值钱。
第三件事,是它的输出风格变得更硬了。
Anthropic 也承认,4.7 的语气更直接,没那么爱“情绪安抚”,默认工具调用更少,子代理也起得更少。喜欢的人会觉得,它终于更像一个愿意正面给判断的同事。
骂它的人,也不是在无理取闹
4.7 变强了,但它顺手把很多旧习惯一起打碎了。
最先炸的是接入层。Anthropic 在迁移文档里明确写了几件事:thinking.type.enabled 这套旧写法不能用了,temperature、top_p、top_k 这些非默认采样参数也不能再随便传,thinking 内容默认还会被省略。如果原来的产品或 agent 框架依赖这些行为,升级到 4.7 以后不是“效果差一点”,而是可能直接 400 报错,或者前端界面突然看起来像卡住。
开发者社区里这类反馈来得很快。有人直接报出 4.7 在旧的自动化链路里启动失败;也有人抱怨 thinking blocks 默认不再显示以后,多轮体验变得很别扭。哪怕后来有些问题被解释成“显示层变化”或者版本兼容没跟上,开发者的第一感受还是一样的:昨天还跑得好好的,今天怎么突然不对了。
这也是为什么网上的评价会很分裂。
支持者看的,是能力上限终于抬起来了。质疑者看的,是迁移成本为什么又落到自己头上。前者讨论的是“它能不能把更难的活接过去”,后者讨论的是“我为什么要为了一个新版本重写提示词、重调 effort、重测 token 成本”。
真正让人别扭的,是它开始更挑工作流了
我觉得 4.7 最大的分水岭,不是“够不够强”,而是“够不够好伺候”。
以前很多人喜欢 Claude,一部分原因是它有种比较顺手的聪明。提示词没那么精确,它也常常能把意思猜个大概;流程搭得没那么严,它也会尽量往前补。4.7 明显不是这个路子了。它更按字面来,也更依赖整套调用链适配它。
一个是,成熟团队可能更喜欢它。
如果你本来就有规范的 system prompt、有明确的工具链、有自己的评测集,4.7 这种“少替你脑补、少偷偷改动、按 effort 分层做事”的模型,反而更好管,更容易进流程。
另一个是,普通用户或者轻量开发者会更容易觉得它难用了。
因为很多过去靠“模型自己会懂”的地方,现在不一定还成立。你原来能跑通的 prompt,今天可能变得过短、过糊,甚至直接显得模型变笨了。其实不一定是它笨了,而是它不再替你补那一段没写出来的规则了。
还有一个容易被忽略的问题:名义不涨价,不等于真没涨
Anthropic 这次把单价维持在和 4.6 一样的水平,表面看确实没涨。但迁移文档里也写得很清楚,4.7 换了 tokenizer,同样的文本,token 计数可能会到 1.0 到 1.35 倍。再加上它在高 effort 下会想得更多,高分辨率图片本身也更吃 token,所以很多开发者真正担心的不是“单价表有没有变”,而是整条任务链跑完以后,账单是不是还是原来那张账单。
这也是另一类讨论的来源。有人说 4.7 值,因为它用更多 token 换来了更高成功率;也有人说这笔账不一定划算,特别是对交互型产品、速度敏感场景来说,模型更稳一点,不一定能抵掉更慢和更贵带来的压力。
所以你会看到一种很典型的两极评价:
做重任务、做 coding agent、做复杂视觉理解的人,更容易说“这次真升级了”。
做轻交互、做通用聊天、做对成本和响应时间很敏感产品的人,更容易说“没你们吹得那么神”。
这篇文章最后,我想把结论说得直一点
Claude Opus 4.7 大概率不是一个“谁用都会立刻更满意”的版本。它更像一个分层很明显的版本。你如果本来就在做复杂编码、长流程代理、图像理解、正式生产接入,那它值得认真看,甚至很可能就是升级方向。可如果你期待的是一个更便宜、更快、更圆滑、还能继续替你默默补全意图的 Claude,那 4.7 未必会让你舒服。
网上的褒贬不一,说到底不是因为大家判断力差太多,而是因为 4.7 的收益和代价都变得更具体了。它确实更强,也确实更挑环境。这反而说明 Anthropic 这次放出来的,不是一个只适合截图炫榜的版本,而是一个会直接碰到真实工作流、真实预算和真实迁移成本的版本。
参考链接
- Anthropic 官方发布:https://www.anthropic.com/news/claude-opus-4-7
- Claude 平台发布说明:https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
- Claude 4.7 迁移指南:https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7
- Claude 平台 Release Notes:https://platform.claude.com/docs/en/release-notes/overview
- 开发者兼容问题讨论 1:https://github.com/anthropics/claude-code-action/issues/1225
- 开发者兼容问题讨论 2:https://github.com/anomalyco/opencode/issues/22852
- 开发者首日体验总结:https://www.prodfeat.ai/en/blog/2026-04-17-opus-4-7-first-day
- 实时讨论入口 1:https://x.com/search?q=Claude%20Opus%204.7&src=typed_query
- 实时讨论入口 2:https://x.com/search?q=%22Claude%20Opus%204.7%22%20%22Claude%20Code%22&src=typed_query