Claude Opus 4.6 全面解读:能力、价格、场景,一次讲清
2 月 5 日,Anthropic 发布了 Claude Opus 4.6。距离上一个 Opus 4.5 刚过去两个半月,版本号只跳了 0.1,但变化不小。
这篇文章把新模型拆开看:到底改了什么、多少钱、适合干什么、跟竞品比怎么样。不做深度技术分析,就讲清楚一个问题——你要不要用,什么时候用。
硬件参数
先看几个硬指标:
| 项目 | Opus 4.5 | Opus 4.6 | |------|----------|----------| | 上下文窗口 | 200K | 200K(1M beta) | | 最大输出 | 64K tokens | 128K tokens | | 输入价格 | $5/MTok | $5/MTok | | 输出价格 | $25/MTok | $25/MTok | | 缓存命中 | $0.50/MTok | $0.50/MTok | | Batch 输入 | $2.50/MTok | $2.50/MTok | | 思考模式 | 手动 budget_tokens | adaptive thinking | | Prefill | 支持 | 不支持(400 报错) |
价格没涨。这是好消息。Opus 4.5 发布时就比 Opus 4/4.1 降了 66%($15→$5 输入),4.6 保持不变。但 1M 上下文有溢价——输入超过 200K tokens 后,输入价翻倍到 $10/MTok,输出涨到 $37.50/MTok。
128K 的输出上限意味着你可以让它一口气写完一整个模块或一份长报告,不用拆成多次请求拼接。不过用这个功能必须走 streaming,否则 HTTP 会超时。
Benchmark 怎么看
Anthropic 给了一堆数字,挑几个有意义的说:
Terminal-Bench 2.0(终端里的 agentic 编码):65.4%,比 4.5 的 59.8% 提升明显,高于 GPT-5.2。这个 benchmark 是在真实终端环境里跑复杂任务,比 SWE-bench 更接近"你让 Claude Code 帮你干活"的场景。
ARC AGI 2(人类容易、AI 困难的问题):68.8%,4.5 只有 37.6%。这个跳跃很大——GPT-5.2 也只有 54.2%。如果你用 Claude 做需要"常识推理"的任务,这个指标值得关注。
GDPval-AA(金融、法律等知识工作):比 GPT-5.2 高 144 Elo,比自家 4.5 高 190 Elo。
不过有个细节:SWE-bench Verified 和 MCP Atlas 这两个 benchmark 出现了小幅回退。The New Stack 的报道也提到了这一点。Anthropic 没有特别解释原因,但在 Terminal-Bench 上的表现弥补了这个差距。
Benchmark 永远只能说明一部分问题。Anthropic 自己也说,他们内部工程师先拿 Opus 4.6 干自家的活,最直接的体感是:难的地方它会多花时间想,简单的地方它跑得快。
真正重要的新能力
Adaptive Thinking:以前你要么开 extended thinking(手动设 budget_tokens),要么不开。现在模型自己决定要不要深入思考、思考多深。配合 effort 参数(low/medium/high/max),可以更细粒度地控制"认真程度"和花费。
Compaction API:长对话撞上下文窗口时,服务端自动把前面的内容压缩成摘要。这对跑长任务的 Agent 来说是大事——以前跑到一半上下文满了只能报错或者丢信息,现在可以自动续命。
Agent Teams(Claude Code 研究预览):在 Claude Code 里可以起多个 Agent 并行干活。比如做 codebase review 时,一个 Agent 看前端,一个看后端,一个检查测试。目前是实验性功能,需要手动开启。
1M 上下文(beta):Opus 级别模型第一次拿到 1M 窗口。在 MRCR v2 的"大海捞针"测试里,Opus 4.6 的 8 针 1M 变体得分 76%,而 Sonnet 4.5 只有 18.5%。真正能"用"起来的长上下文,不只是"能塞进去"。
适合什么场景
根据官方数据和 Early Access 合作伙伴的反馈,几个场景效果比较明显:
大代码库操作:SentinelOne 说 Opus 4.6 处理了一个百万行级别的代码库迁移,"像高级工程师一样先规划、再执行、中途调整策略"。Cursor 的评价是"长时间运行任务的新标杆"。
金融和法律分析:Box 的测试显示,多来源分析任务(法律、财务、技术内容混合)性能提升了 10 个百分点。Harvey 在 BigLaw Bench 上拿到了 90.2%。
网络安全:NBIM 在 40 个安全调查中,Opus 4.6 赢了 38 次(盲测对比 4.5)。Anthropic 同步发布了 6 个新的网络安全检测探针。
不适合的场景:简单的分类、提取、翻译。这些任务用 Haiku 4.5 或 Sonnet 4.5 就够了。Opus 的 $25/MTok 输出价格是 Sonnet 的 1.67 倍、Haiku 的 5 倍。小任务上大模型,纯浪费。
跟 GPT-5.2、Gemini 3 Pro 比
不做全面对比(那得写另一篇了),只说几个关键差异:
- 编码:Opus 4.6 在 Terminal-Bench 和 OSWorld 上领先。GPT-5.2 在某些 SWE-bench 子集上表现也不错,两家差距没有 benchmark 表上看起来那么大。
- 推理:ARC AGI 2 上 Opus 4.6 明显领先。Humanity's Last Exam 也是第一。
- 价格:GPT-5.2 的价格取决于具体方案,但 Opus 4.6 的 $5/$25 在旗舰模型里算中等偏低。
- 上下文:1M beta 跟 Gemini 的 1M 窗口对标,但 Opus 的长上下文保持能力(抗 context rot)明显更好。
怎么开始用
API 调用直接换 model ID:
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "..."}]
)
Claude Pro/Max/Team/Enterprise 用户在 claude.ai 上直接可用。API 用户通过 Claude Developer Platform、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 都能调到。
如果你是从 Opus 4.5 迁移,需要注意几个 breaking change(prefill 不再支持、thinking 参数变了、output_format 参数位置改了),但整体上是"近似直接替换"。
参考链接
- Anthropic 官方发布:
https://anthropic.com/news/claude-opus-4-6 - 模型定价:
https://platform.claude.com/docs/en/about-claude/pricing - The New Stack 分析:
https://thenewstack.io/anthropics-opus-4-6-is-a-step-change-for-the-enterprise/