Claude Opus 4.6 全面解读：能力、价格、场景，一次讲清

2 月 5 日，Anthropic 发布了 Claude Opus 4.6。距离上一个 Opus 4.5 刚过去两个半月，版本号只跳了 0.1，但变化不小。

这篇文章把新模型拆开看：到底改了什么、多少钱、适合干什么、跟竞品比怎么样。不做深度技术分析，就讲清楚一个问题——你要不要用，什么时候用。

硬件参数

先看几个硬指标：

| 项目 | Opus 4.5 | Opus 4.6 | |------|----------|----------| | 上下文窗口 | 200K | 200K（1M beta） | | 最大输出 | 64K tokens | 128K tokens | | 输入价格 | $5/MTok | $5/MTok | | 输出价格 | $25/MTok | $25/MTok | | 缓存命中 | $0.50/MTok | $0.50/MTok | | Batch 输入 | $2.50/MTok | $2.50/MTok | | 思考模式 | 手动 budget_tokens | adaptive thinking | | Prefill | 支持 | 不支持（400 报错） |

价格没涨。这是好消息。Opus 4.5 发布时就比 Opus 4/4.1 降了 66%（$15→$5 输入），4.6 保持不变。但 1M 上下文有溢价——输入超过 200K tokens 后，输入价翻倍到 $10/MTok，输出涨到 $37.50/MTok。

128K 的输出上限意味着你可以让它一口气写完一整个模块或一份长报告，不用拆成多次请求拼接。不过用这个功能必须走 streaming，否则 HTTP 会超时。

Benchmark 怎么看

Anthropic 给了一堆数字，挑几个有意义的说：

Terminal-Bench 2.0（终端里的 agentic 编码）：65.4%，比 4.5 的 59.8% 提升明显，高于 GPT-5.2。这个 benchmark 是在真实终端环境里跑复杂任务，比 SWE-bench 更接近"你让 Claude Code 帮你干活"的场景。

ARC AGI 2（人类容易、AI 困难的问题）：68.8%，4.5 只有 37.6%。这个跳跃很大——GPT-5.2 也只有 54.2%。如果你用 Claude 做需要"常识推理"的任务，这个指标值得关注。

GDPval-AA（金融、法律等知识工作）：比 GPT-5.2 高 144 Elo，比自家 4.5 高 190 Elo。

不过有个细节：SWE-bench Verified 和 MCP Atlas 这两个 benchmark 出现了小幅回退。The New Stack 的报道也提到了这一点。Anthropic 没有特别解释原因，但在 Terminal-Bench 上的表现弥补了这个差距。

Benchmark 永远只能说明一部分问题。Anthropic 自己也说，他们内部工程师先拿 Opus 4.6 干自家的活，最直接的体感是：难的地方它会多花时间想，简单的地方它跑得快。

真正重要的新能力

Adaptive Thinking：以前你要么开 extended thinking（手动设 budget_tokens），要么不开。现在模型自己决定要不要深入思考、思考多深。配合 effort 参数（low/medium/high/max），可以更细粒度地控制"认真程度"和花费。

Compaction API：长对话撞上下文窗口时，服务端自动把前面的内容压缩成摘要。这对跑长任务的 Agent 来说是大事——以前跑到一半上下文满了只能报错或者丢信息，现在可以自动续命。

Agent Teams（Claude Code 研究预览）：在 Claude Code 里可以起多个 Agent 并行干活。比如做 codebase review 时，一个 Agent 看前端，一个看后端，一个检查测试。目前是实验性功能，需要手动开启。

1M 上下文（beta）：Opus 级别模型第一次拿到 1M 窗口。在 MRCR v2 的"大海捞针"测试里，Opus 4.6 的 8 针 1M 变体得分 76%，而 Sonnet 4.5 只有 18.5%。真正能"用"起来的长上下文，不只是"能塞进去"。

适合什么场景

根据官方数据和 Early Access 合作伙伴的反馈，几个场景效果比较明显：

大代码库操作：SentinelOne 说 Opus 4.6 处理了一个百万行级别的代码库迁移，"像高级工程师一样先规划、再执行、中途调整策略"。Cursor 的评价是"长时间运行任务的新标杆"。

金融和法律分析：Box 的测试显示，多来源分析任务（法律、财务、技术内容混合）性能提升了 10 个百分点。Harvey 在 BigLaw Bench 上拿到了 90.2%。

网络安全：NBIM 在 40 个安全调查中，Opus 4.6 赢了 38 次（盲测对比 4.5）。Anthropic 同步发布了 6 个新的网络安全检测探针。

不适合的场景：简单的分类、提取、翻译。这些任务用 Haiku 4.5 或 Sonnet 4.5 就够了。Opus 的 $25/MTok 输出价格是 Sonnet 的 1.67 倍、Haiku 的 5 倍。小任务上大模型，纯浪费。

跟 GPT-5.2、Gemini 3 Pro 比

不做全面对比（那得写另一篇了），只说几个关键差异：

编码：Opus 4.6 在 Terminal-Bench 和 OSWorld 上领先。GPT-5.2 在某些 SWE-bench 子集上表现也不错，两家差距没有 benchmark 表上看起来那么大。
推理：ARC AGI 2 上 Opus 4.6 明显领先。Humanity's Last Exam 也是第一。
价格：GPT-5.2 的价格取决于具体方案，但 Opus 4.6 的 $5/$25 在旗舰模型里算中等偏低。
上下文：1M beta 跟 Gemini 的 1M 窗口对标，但 Opus 的长上下文保持能力（抗 context rot）明显更好。

怎么开始用

API 调用直接换 model ID：

response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "..."}]
)

Claude Pro/Max/Team/Enterprise 用户在 claude.ai 上直接可用。API 用户通过 Claude Developer Platform、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 都能调到。

如果你是从 Opus 4.5 迁移，需要注意几个 breaking change（prefill 不再支持、thinking 参数变了、output_format 参数位置改了），但整体上是"近似直接替换"。

参考链接

Anthropic 官方发布：https://anthropic.com/news/claude-opus-4-6
模型定价：https://platform.claude.com/docs/en/about-claude/pricing
The New Stack 分析：https://thenewstack.io/anthropics-opus-4-6-is-a-step-change-for-the-enterprise/