Standard 还是 Fast 还是 Extended?Claude Opus 4.6 三种模式选错了就是烧钱

Standard 还是 Fast 还是 Extended?Claude Opus 4.6 三种模式选错了就是烧钱

很多人只知道 Claude Opus 4.6 出了个 Fast 模式,但其实 Opus 4.6 有三种运行模式。选错了,要么多花钱,要么效果不好。

三种模式一览

| 维度 | Standard | Fast | Extended Thinking | |------|----------|------|-------------------| | 速度 | 基准 | 快 2.5 倍 | 慢(取决于思考预算) | | 输出质量 | 高 | 日常任务接近,复杂任务略降 | 最高 | | 适合任务 | 通用 | 快速迭代 | 高难度推理 | | 定价 | $5/$25(输入/输出每百万 token) | 预计有溢价(未公布) | 按 thinking token 计费 | | 可用状态 | 全面可用 | Research Preview | 全面可用 |

简单说:Fast 牺牲一点深度换速度,Extended 牺牲速度换深度,Standard 在中间。

Extended Thinking 是什么

这个模式在 Opus 4.5 时代就有了,Opus 4.6 做了升级,叫 Adaptive Thinking。

原理不复杂:你可以在 API 请求里设置一个 budget_tokens 参数,告诉模型"你最多可以花多少 token 来思考"。模型会在正式回答之前,先在内部做一轮推演。

设 4096 个 token 的思考预算,它会简单想想。设 32000 个 token,它会反复推敲。设 128000 个 token,它会进入"深度分析"状态,输出质量会明显提升,但等待时间也会拉长到分钟级。

Adaptive Thinking 的改进在于:模型会根据问题难度自动调整实际使用的思考量。简单问题不会把预算全用完,复杂问题会用到上限。

实际怎么选

我拿同一个任务试了三种模式:让模型分析一段有性能问题的 SQL 查询,给出优化建议。

Fast 模式(3 秒出结果): 找到了缺失索引的问题,给了加索引的建议。够用,但没往深了查。

Standard 模式(8 秒出结果): 找到缺失索引,还发现了一个 N+1 查询问题和一个不必要的子查询。给了三条优化建议,每条都有解释。

Extended Thinking 模式(budget_tokens=32000,24 秒出结果): 除了上面的问题,还分析了表的数据量级对查询计划的影响,建议考虑分区表。甚至提到了在高并发场景下这条查询可能导致锁争用。

差距一目了然。

定价怎么算

Standard 模式:输入 $5/百万 token,输出 $25/百万 token。

Extended Thinking 模式:thinking token 按输出价格计费。如果你设了 32000 的思考预算,最坏情况下额外花费 32000 × $25/百万 = $0.0008。听起来不多,但如果你的应用每天调用上万次,这笔钱会叠起来。

Fast 模式:还没正式公布。参考 Anthropic 过去的定价风格,预计在 Standard 基础上加 20%-50%。

我的调参策略

用了一周之后,我总结出一套按场景切换的方案:

日常编码(Fast): 写函数、补测试、改 bug、做代码补全。这些任务不需要深度思考,快就是正义。

代码审查和方案设计(Standard): 需要模型认真看代码逻辑,给出有理有据的意见。Standard 在质量和速度之间的平衡点最好。

疑难杂症(Extended,budget_tokens 16000-32000): 那种查了半天没头绪的 bug,或者需要考虑多个系统交互的架构问题。给足思考预算,让它慢慢想。

学术级任务(Extended,budget_tokens 64000+): 算法设计、形式化验证、安全审计。这种任务不在乎等多久,只在乎结果对不对。

API 调用示例

三种模式的 API 写法:

# Standard(默认)
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}]
)

# Fast
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}],
    speed="fast"
)

# Extended Thinking
response = client.messages.create(
    model="claude-opus-4-6-20260205",
    messages=[{"role": "user", "content": prompt}],
    thinking={"type": "enabled", "budget_tokens": 32000}
)

注意 Fast 和 Extended Thinking 不能同时开。要么快,要么深,不能又快又深。

一个容易踩的坑

Extended Thinking 模式下,模型的"思考过程"也会算在上下文窗口里。Opus 4.6 有 200K 的标准上下文(1M 在 beta),如果你设了很大的思考预算,又塞了很长的代码上下文,可能会撞到窗口限制。

建议做法:上下文越长,思考预算设小一点。两边抢的是同一个资源。

选择矩阵

| 你的情况 | 推荐模式 | |---------|---------| | 赶工期,先出初稿 | Fast | | 正常开发节奏 | Standard | | 调了一天的 bug | Extended(16K-32K) | | 设计新系统架构 | Standard 或 Extended | | 安全审计 / 算法证明 | Extended(64K+) | | 批量处理(不在乎延迟) | Standard + Batch API(省 50%) |

没有万能模式。了解自己的需求,按场景切换,这才是省钱的方式。

← 返回博客列表