Gemini 3.1 Pro 说好的便宜，结果推理 token 把我坑了

Gemini 3.1 Pro 的定价表面上很有竞争力：输入 $2/百万 token，输出 $12/百万 token。对比 Claude Opus 4.6 的输入 $15、输出 $75，Gemini 3.1 Pro 看起来便宜六七倍。

但我拿计算器把 Gemini 3.1 Pro 三个思考等级的实际费用算了一遍之后发现，真正让账单失控的不是输入和输出，而是推理 token。

基础定价一览

计费项目	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
输入 token	$2.00/百万	$15.00/百万	$10.00/百万
输出 token	$12.00/百万	$75.00/百万	$30.00/百万
缓存读取	$0.20/百万	—	—

单看这张表，Gemini 3.1 Pro 在每个项目上都是最便宜的。缓存读取只要 $0.20/百万，是正常输入费的十分之一。Google AI Studio、Gemini API、Vertex AI 上价格统一。

但这张表里漏了一个关键项目：推理 token。

Gemini 3.1 Pro 的推理 token 怎么计费

Gemini 3.1 Pro 的思考过程（thinking tokens）不是免费赠送的，它按照输出 token 的价格计费，也就是 $12/百万 token。

这是什么概念？你问模型一个问题，模型回答了 500 个 token 的内容。但在回答之前，它可能在内部推理了 5000 个 token（MEDIUM 模式）甚至 20000 个 token（HIGH 模式）。这些推理 token 你看不见，但 Google 照常收费。

HIGH 模式下单次请求的推理 token 上限是 32768 个。按 $12/百万 token 算，一次推理最多花 $0.000393。听起来不多？那是因为你只算了一次。

Gemini 3.1 Pro 三个场景的完整成本估算

我算了三个典型的生产场景，看看不同思考等级下的成本差异。

场景一：编程助手 每次输入 3000 token（代码片段 + 问题），输出 800 token，一天 2000 次请求。

档位	推理 token/次	日费（推理）	日费（输出）	日费（输入）	日总计	月总计
LOW (~400)	400	$9.60	$19.20	$12.00	$40.80	$1,224
MEDIUM (~5000)	5000	$120.00	$19.20	$12.00	$151.20	$4,536
HIGH (~20000)	20000	$480.00	$19.20	$12.00	$511.20	$15,336

LOW 模式下月费 $1,224，HIGH 模式下 $15,336。差了 12.5 倍。推理 token 在 HIGH 模式下占总费用的 93%。

场景二：文档摘要服务 每次输入 50000 token（一份长文档），输出 2000 token（摘要），一天 200 次请求。

档位	日费（推理）	日费（输出）	日费（输入）	日总计	月总计
LOW	$0.96	$4.80	$20.00	$25.76	$773
MEDIUM	$12.00	$4.80	$20.00	$36.80	$1,104
HIGH	$48.00	$4.80	$20.00	$72.80	$2,184

文档摘要场景下输入是大头。因为每次输入 5 万 token，输入费本身就高。但即便如此，HIGH 模式的推理费还是占了总费用的 66%。

场景三：客服机器人 每次输入 1000 token（用户消息 + 历史），输出 300 token，一天 10000 次请求。

档位	日费（推理）	日费（输出）	日费（输入）	日总计	月总计
LOW	$48.00	$36.00	$20.00	$104.00	$3,120
MEDIUM	$600.00	$36.00	$20.00	$656.00	$19,680
HIGH	$2,400.00	$36.00	$20.00	$2,456.00	$73,680

高并发场景下差距更恐怖。客服机器人一天 1 万次请求，HIGH 模式月费超过 7 万美金。LOW 模式只需要 $3,120。

和 Claude Opus 4.6 对比

用场景一（编程助手）来比：

Gemini 3.1 Pro（MEDIUM 模式）： $4,536/月 Gemini 3.1 Pro（LOW 模式）： $1,224/月 Claude Opus 4.6（不带推理模式）：

输入：$15 × 6（300 万 token/天 × 30 天 = 1.8 亿 token/月 = 180 百万）= $2,700/月。等等，我重新算一下。每天 2000 次 × 3000 token = 600 万 token/天，30 天 = 1.8 亿 token，按 $15/百万 = $2,700。
输出：每天 2000 次 × 800 token = 160 万 token/天，30 天 = 4800 万 token，按 $75/百万 = $3,600。
合计：$6,300/月。

对比结果：

Gemini LOW：$1,224（比 Claude 便宜 5 倍）
Gemini MEDIUM：$4,536（比 Claude 便宜 28%）
Gemini HIGH：$15,336（比 Claude 贵 2.4 倍）

结论很清楚：Gemini 3.1 Pro "便宜"的前提是你用 LOW 或 MEDIUM。一旦开 HIGH，因为推理 token 的存在，实际成本会超过 Claude 不带推理的版本。

Context Caching 能省多少

Context Caching 是 Gemini API 里一个比较实用的降本手段。如果你有一段固定内容需要在每次请求中都带上（比如公司知识库、产品文档、长 system prompt），可以先缓存起来，后续请求引用缓存而不是重新发送。

缓存读取的价格是 $0.20/百万 token，正常输入的十分之一。

一个实际例子：你的 system prompt 有 80000 token（一份详细的公司规范文档），每天 5000 次请求。

不用缓存：80000 × 5000 = 4 亿 token/天，$2 × 400 = $800/天，$24,000/月。用缓存：首次缓存 $0.16，后续 4999 次读缓存 = 4 亿 token × $0.20/百万 = $80/天，$2,400/月。

省了 90%。

前提是这段内容在多次请求之间不变。如果每次请求的上下文都不一样，缓存命中率低，这个机制就没意义了。

还有一个 Implicit Context Caching（隐式缓存），Vertex AI 文档里提到 Gemini 3.1 Pro 支持。也就是系统自动检测重复的上下文前缀，自动缓存。这个不需要你手动配置，但具体的缓存策略和命中率 Google 没有公开。

免费额度够干什么

Google AI Studio 的免费档大概是：

RPM（每分钟请求数）：5-15 次
RPD（每天请求数）：20-100 次
TPM（每分钟 token 数）：250,000

每天最多 100 次请求，够写个 demo 和跑几轮测试。做原型验证可以用，但上生产不够。

注意一个坑：2025 年 12 月 Google 把免费档的每日请求数做了"显著下调"（从几百次降到 20-100 次）。如果你之前用免费额度跑过 Gemini 2.5 的项目，切到 3.1 Pro 的时候可能会发现免费额度缩水了。

Batch Prediction

批量预测在 Preview 阶段不支持。如果你有大批量离线处理需求（比如一次性处理 10 万份文档），目前只能用在线 API 逐条调用。批量折扣要等 GA 版本。

Vertex AI 支持 Priority PayGo、Flex PayGo、Standard PayGo 和 Provisioned Throughput 四种消费模式，但 Preview 阶段可用的选项有限。如果你是大客户，建议直接和 Google Cloud 的客户经理谈自定义方案。

我的建议

如果你在做模型选型的成本评估，别被单价表面上的数字蒙了。拿计算器算一遍你的具体场景：请求量 × 输入 token × 推理 token × 输出 token，分三档算出来再做决定。

大多数场景下 Gemini 3.1 Pro + MEDIUM 模式是性价比最好的组合。需要控制延迟的场景用 LOW，需要极致推理的小流量场景才用 HIGH。

参考资料

Gemini API 定价与配额，AI Free API：https://www.aifreeapi.com/en/posts/gemini-api-pricing-and-quotas
Gemini 3.1 Pro Preview 定价，CloudPrice：https://cloudprice.net/models/vertex_ai%2Fgemini-3.1-pro-preview
Gemini API 计费文档，Google AI for Developers：https://ai.google.dev/gemini-api/docs/billing
Gemini 3.1 Pro Vertex AI 文档（消费模式），Google Cloud：https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro
Gemini 3.1 Pro vs Claude Opus 4.6 定价对比，AI Free API：https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6