Gemini 3.1 Pro 定价深度分析:推理 token 才是 API 账单大头

Gemini 3.1 Pro 定价深度分析:推理 token 才是 API 账单大头

Gemini 3.1 Pro 的定价表面上很有竞争力:输入 $2/百万 token,输出 $12/百万 token。对比 Claude Opus 4.6 的输入 $15、输出 $75,Gemini 3.1 Pro 看起来便宜六七倍。

但我拿计算器把 Gemini 3.1 Pro 三个思考等级的实际费用算了一遍之后发现,真正让账单失控的不是输入和输出,而是推理 token。

基础定价一览

计费项目 Gemini 3.1 Pro Claude Opus 4.6 GPT-5.2
输入 token $2.00/百万 $15.00/百万 $10.00/百万
输出 token $12.00/百万 $75.00/百万 $30.00/百万
缓存读取 $0.20/百万

单看这张表,Gemini 3.1 Pro 在每个项目上都是最便宜的。缓存读取只要 $0.20/百万,是正常输入费的十分之一。Google AI Studio、Gemini API、Vertex AI 上价格统一。

但这张表里漏了一个关键项目:推理 token。

推理 token 怎么计费

Gemini 3.1 Pro 的思考过程(thinking tokens)不是免费赠送的,它按照输出 token 的价格计费,也就是 $12/百万 token。

这是什么概念?你问模型一个问题,模型回答了 500 个 token 的内容。但在回答之前,它可能在内部推理了 5000 个 token(MEDIUM 模式)甚至 20000 个 token(HIGH 模式)。这些推理 token 你看不见,但 Google 照常收费。

HIGH 模式下单次请求的推理 token 上限是 32768 个。按 $12/百万 token 算,一次推理最多花 $0.000393。听起来不多?那是因为你只算了一次。

三个场景的完整成本估算

我算了三个典型的生产场景,看看不同思考等级下的成本差异。

场景一:编程助手 每次输入 3000 token(代码片段 + 问题),输出 800 token,一天 2000 次请求。

档位 推理 token/次 日费(推理) 日费(输出) 日费(输入) 日总计 月总计
LOW (~400) 400 $9.60 $19.20 $12.00 $40.80 $1,224
MEDIUM (~5000) 5000 $120.00 $19.20 $12.00 $151.20 $4,536
HIGH (~20000) 20000 $480.00 $19.20 $12.00 $511.20 $15,336

LOW 模式下月费 $1,224,HIGH 模式下 $15,336。差了 12.5 倍。推理 token 在 HIGH 模式下占总费用的 93%。

场景二:文档摘要服务 每次输入 50000 token(一份长文档),输出 2000 token(摘要),一天 200 次请求。

档位 日费(推理) 日费(输出) 日费(输入) 日总计 月总计
LOW $0.96 $4.80 $20.00 $25.76 $773
MEDIUM $12.00 $4.80 $20.00 $36.80 $1,104
HIGH $48.00 $4.80 $20.00 $72.80 $2,184

文档摘要场景下输入是大头。因为每次输入 5 万 token,输入费本身就高。但即便如此,HIGH 模式的推理费还是占了总费用的 66%。

场景三:客服机器人 每次输入 1000 token(用户消息 + 历史),输出 300 token,一天 10000 次请求。

档位 日费(推理) 日费(输出) 日费(输入) 日总计 月总计
LOW $48.00 $36.00 $20.00 $104.00 $3,120
MEDIUM $600.00 $36.00 $20.00 $656.00 $19,680
HIGH $2,400.00 $36.00 $20.00 $2,456.00 $73,680

高并发场景下差距更恐怖。客服机器人一天 1 万次请求,HIGH 模式月费超过 7 万美金。LOW 模式只需要 $3,120。

和 Claude Opus 4.6 对比

用场景一(编程助手)来比:

Gemini 3.1 Pro(MEDIUM 模式): $4,536/月 Gemini 3.1 Pro(LOW 模式): $1,224/月 Claude Opus 4.6(不带推理模式):

  • 输入:$15 × 6(300 万 token/天 × 30 天 = 1.8 亿 token/月 = 180 百万)= $2,700/月。等等,我重新算一下。每天 2000 次 × 3000 token = 600 万 token/天,30 天 = 1.8 亿 token,按 $15/百万 = $2,700。
  • 输出:每天 2000 次 × 800 token = 160 万 token/天,30 天 = 4800 万 token,按 $75/百万 = $3,600。
  • 合计:$6,300/月。

对比结果:

  • Gemini LOW:$1,224(比 Claude 便宜 5 倍)
  • Gemini MEDIUM:$4,536(比 Claude 便宜 28%)
  • Gemini HIGH:$15,336(比 Claude 贵 2.4 倍)

结论很清楚:Gemini 3.1 Pro "便宜"的前提是你用 LOW 或 MEDIUM。一旦开 HIGH,因为推理 token 的存在,实际成本会超过 Claude 不带推理的版本。

Context Caching 能省多少

Context Caching 是 Gemini API 里一个比较实用的降本手段。如果你有一段固定内容需要在每次请求中都带上(比如公司知识库、产品文档、长 system prompt),可以先缓存起来,后续请求引用缓存而不是重新发送。

缓存读取的价格是 $0.20/百万 token,正常输入的十分之一。

一个实际例子:你的 system prompt 有 80000 token(一份详细的公司规范文档),每天 5000 次请求。

不用缓存:80000 × 5000 = 4 亿 token/天,$2 × 400 = $800/天,$24,000/月。 用缓存:首次缓存 $0.16,后续 4999 次读缓存 = 4 亿 token × $0.20/百万 = $80/天,$2,400/月。

省了 90%。

前提是这段内容在多次请求之间不变。如果每次请求的上下文都不一样,缓存命中率低,这个机制就没意义了。

还有一个 Implicit Context Caching(隐式缓存),Vertex AI 文档里提到 Gemini 3.1 Pro 支持。也就是系统自动检测重复的上下文前缀,自动缓存。这个不需要你手动配置,但具体的缓存策略和命中率 Google 没有公开。

免费额度够干什么

Google AI Studio 的免费档大概是:

  • RPM(每分钟请求数):5-15 次
  • RPD(每天请求数):20-100 次
  • TPM(每分钟 token 数):250,000

每天最多 100 次请求,够写个 demo 和跑几轮测试。做原型验证可以用,但上生产不够。

注意一个坑:2025 年 12 月 Google 把免费档的每日请求数做了"显著下调"(从几百次降到 20-100 次)。如果你之前用免费额度跑过 Gemini 2.5 的项目,切到 3.1 Pro 的时候可能会发现免费额度缩水了。

Batch Prediction

批量预测在 Preview 阶段不支持。如果你有大批量离线处理需求(比如一次性处理 10 万份文档),目前只能用在线 API 逐条调用。批量折扣要等 GA 版本。

Vertex AI 支持 Priority PayGo、Flex PayGo、Standard PayGo 和 Provisioned Throughput 四种消费模式,但 Preview 阶段可用的选项有限。如果你是大客户,建议直接和 Google Cloud 的客户经理谈自定义方案。

我的建议

如果你在做模型选型的成本评估,别被单价表面上的数字蒙了。拿计算器算一遍你的具体场景:请求量 × 输入 token × 推理 token × 输出 token,分三档算出来再做决定。

大多数场景下 Gemini 3.1 Pro + MEDIUM 模式是性价比最好的组合。需要控制延迟的场景用 LOW,需要极致推理的小流量场景才用 HIGH。


参考资料

← 返回博客列表