Standard 还是 Fast 还是 Extended？Claude Opus 4.6 三种模式选错了就是烧钱

很多人只知道 Claude Opus 4.6 出了个 Fast 模式，但其实 Opus 4.6 有三种运行模式。选错了，要么多花钱，要么效果不好。

三种模式一览

| 维度 | Standard | Fast | Extended Thinking | |------|----------|------|-------------------| | 速度 | 基准 | 快 2.5 倍 | 慢（取决于思考预算） | | 输出质量 | 高 | 日常任务接近，复杂任务略降 | 最高 | | 适合任务 | 通用 | 快速迭代 | 高难度推理 | | 定价 | $5/$25（输入/输出每百万 token） | 预计有溢价（未公布） | 按 thinking token 计费 | | 可用状态 | 全面可用 | Research Preview | 全面可用 |

简单说：Fast 牺牲一点深度换速度，Extended 牺牲速度换深度，Standard 在中间。

Extended Thinking 是什么

这个模式在 Opus 4.5 时代就有了，Opus 4.6 做了升级，叫 Adaptive Thinking。

原理不复杂：你可以在 API 请求里设置一个 budget_tokens 参数，告诉模型"你最多可以花多少 token 来思考"。模型会在正式回答之前，先在内部做一轮推演。

设 4096 个 token 的思考预算，它会简单想想。设 32000 个 token，它会反复推敲。设 128000 个 token，它会进入"深度分析"状态，输出质量会明显提升，但等待时间也会拉长到分钟级。

Adaptive Thinking 的改进在于：模型会根据问题难度自动调整实际使用的思考量。简单问题不会把预算全用完，复杂问题会用到上限。

实际怎么选

我拿同一个任务试了三种模式：让模型分析一段有性能问题的 SQL 查询，给出优化建议。

Fast 模式（3 秒出结果）： 找到了缺失索引的问题，给了加索引的建议。够用，但没往深了查。

Standard 模式（8 秒出结果）： 找到缺失索引，还发现了一个 N+1 查询问题和一个不必要的子查询。给了三条优化建议，每条都有解释。

Extended Thinking 模式（budget_tokens=32000，24 秒出结果）： 除了上面的问题，还分析了表的数据量级对查询计划的影响，建议考虑分区表。甚至提到了在高并发场景下这条查询可能导致锁争用。

差距一目了然。

定价怎么算

Standard 模式：输入 $5/百万 token，输出 $25/百万 token。

Extended Thinking 模式：thinking token 按输出价格计费。如果你设了 32000 的思考预算，最坏情况下额外花费 32000 × $25/百万 = $0.0008。听起来不多，但如果你的应用每天调用上万次，这笔钱会叠起来。

Fast 模式：还没正式公布。参考 Anthropic 过去的定价风格，预计在 Standard 基础上加 20%-50%。

我的调参策略

用了一周之后，我总结出一套按场景切换的方案：

日常编码（Fast）： 写函数、补测试、改 bug、做代码补全。这些任务不需要深度思考，快就是正义。

代码审查和方案设计（Standard）： 需要模型认真看代码逻辑，给出有理有据的意见。Standard 在质量和速度之间的平衡点最好。

疑难杂症（Extended，budget_tokens 16000-32000）： 那种查了半天没头绪的 bug，或者需要考虑多个系统交互的架构问题。给足思考预算，让它慢慢想。

学术级任务（Extended，budget_tokens 64000+）： 算法设计、形式化验证、安全审计。这种任务不在乎等多久，只在乎结果对不对。

API 调用示例

三种模式的 API 写法：

# Standard（默认）
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}]
)

# Fast
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}],
    speed="fast"
)

# Extended Thinking
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}],
    thinking={"type": "enabled", "budget_tokens": 32000}
)

注意 Fast 和 Extended Thinking 不能同时开。要么快，要么深，不能又快又深。

一个容易踩的坑

Extended Thinking 模式下，模型的"思考过程"也会算在上下文窗口里。Opus 4.6 有 200K 的标准上下文（1M 在 beta），如果你设了很大的思考预算，又塞了很长的代码上下文，可能会撞到窗口限制。

建议做法：上下文越长，思考预算设小一点。两边抢的是同一个资源。

选择矩阵

| 你的情况 | 推荐模式 | |---------|---------| | 赶工期，先出初稿 | Fast | | 正常开发节奏 | Standard | | 调了一天的 bug | Extended（16K-32K） | | 设计新系统架构 | Standard 或 Extended | | 安全审计 / 算法证明 | Extended（64K+） | | 批量处理（不在乎延迟） | Standard + Batch API（省 50%） |

没有万能模式。了解自己的需求，按场景切换，这才是省钱的方式。