Gemini 3.1 Pro 说好的便宜,结果推理 token 把我坑了
Gemini 3.1 Pro 的定价表面上很有竞争力:输入 $2/百万 token,输出 $12/百万 token。对比 Claude Opus 4.6 的输入 $15、输出 $75,Gemini 3.1 Pro 看起来便宜六七倍。
但我拿计算器把 Gemini 3.1 Pro 三个思考等级的实际费用算了一遍之后发现,真正让账单失控的不是输入和输出,而是推理 token。
基础定价一览
| 计费项目 | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| 输入 token | $2.00/百万 | $15.00/百万 | $10.00/百万 |
| 输出 token | $12.00/百万 | $75.00/百万 | $30.00/百万 |
| 缓存读取 | $0.20/百万 | — | — |
单看这张表,Gemini 3.1 Pro 在每个项目上都是最便宜的。缓存读取只要 $0.20/百万,是正常输入费的十分之一。Google AI Studio、Gemini API、Vertex AI 上价格统一。
但这张表里漏了一个关键项目:推理 token。
Gemini 3.1 Pro 的推理 token 怎么计费
Gemini 3.1 Pro 的思考过程(thinking tokens)不是免费赠送的,它按照输出 token 的价格计费,也就是 $12/百万 token。
这是什么概念?你问模型一个问题,模型回答了 500 个 token 的内容。但在回答之前,它可能在内部推理了 5000 个 token(MEDIUM 模式)甚至 20000 个 token(HIGH 模式)。这些推理 token 你看不见,但 Google 照常收费。
HIGH 模式下单次请求的推理 token 上限是 32768 个。按 $12/百万 token 算,一次推理最多花 $0.000393。听起来不多?那是因为你只算了一次。
Gemini 3.1 Pro 三个场景的完整成本估算
我算了三个典型的生产场景,看看不同思考等级下的成本差异。
场景一:编程助手 每次输入 3000 token(代码片段 + 问题),输出 800 token,一天 2000 次请求。
| 档位 | 推理 token/次 | 日费(推理) | 日费(输出) | 日费(输入) | 日总计 | 月总计 |
|---|---|---|---|---|---|---|
| LOW (~400) | 400 | $9.60 | $19.20 | $12.00 | $40.80 | $1,224 |
| MEDIUM (~5000) | 5000 | $120.00 | $19.20 | $12.00 | $151.20 | $4,536 |
| HIGH (~20000) | 20000 | $480.00 | $19.20 | $12.00 | $511.20 | $15,336 |
LOW 模式下月费 $1,224,HIGH 模式下 $15,336。差了 12.5 倍。推理 token 在 HIGH 模式下占总费用的 93%。
场景二:文档摘要服务 每次输入 50000 token(一份长文档),输出 2000 token(摘要),一天 200 次请求。
| 档位 | 日费(推理) | 日费(输出) | 日费(输入) | 日总计 | 月总计 |
|---|---|---|---|---|---|
| LOW | $0.96 | $4.80 | $20.00 | $25.76 | $773 |
| MEDIUM | $12.00 | $4.80 | $20.00 | $36.80 | $1,104 |
| HIGH | $48.00 | $4.80 | $20.00 | $72.80 | $2,184 |
文档摘要场景下输入是大头。因为每次输入 5 万 token,输入费本身就高。但即便如此,HIGH 模式的推理费还是占了总费用的 66%。
场景三:客服机器人 每次输入 1000 token(用户消息 + 历史),输出 300 token,一天 10000 次请求。
| 档位 | 日费(推理) | 日费(输出) | 日费(输入) | 日总计 | 月总计 |
|---|---|---|---|---|---|
| LOW | $48.00 | $36.00 | $20.00 | $104.00 | $3,120 |
| MEDIUM | $600.00 | $36.00 | $20.00 | $656.00 | $19,680 |
| HIGH | $2,400.00 | $36.00 | $20.00 | $2,456.00 | $73,680 |
高并发场景下差距更恐怖。客服机器人一天 1 万次请求,HIGH 模式月费超过 7 万美金。LOW 模式只需要 $3,120。
和 Claude Opus 4.6 对比
用场景一(编程助手)来比:
Gemini 3.1 Pro(MEDIUM 模式): $4,536/月 Gemini 3.1 Pro(LOW 模式): $1,224/月 Claude Opus 4.6(不带推理模式):
- 输入:$15 × 6(300 万 token/天 × 30 天 = 1.8 亿 token/月 = 180 百万)= $2,700/月。等等,我重新算一下。每天 2000 次 × 3000 token = 600 万 token/天,30 天 = 1.8 亿 token,按 $15/百万 = $2,700。
- 输出:每天 2000 次 × 800 token = 160 万 token/天,30 天 = 4800 万 token,按 $75/百万 = $3,600。
- 合计:$6,300/月。
对比结果:
- Gemini LOW:$1,224(比 Claude 便宜 5 倍)
- Gemini MEDIUM:$4,536(比 Claude 便宜 28%)
- Gemini HIGH:$15,336(比 Claude 贵 2.4 倍)
结论很清楚:Gemini 3.1 Pro "便宜"的前提是你用 LOW 或 MEDIUM。一旦开 HIGH,因为推理 token 的存在,实际成本会超过 Claude 不带推理的版本。
Context Caching 能省多少
Context Caching 是 Gemini API 里一个比较实用的降本手段。如果你有一段固定内容需要在每次请求中都带上(比如公司知识库、产品文档、长 system prompt),可以先缓存起来,后续请求引用缓存而不是重新发送。
缓存读取的价格是 $0.20/百万 token,正常输入的十分之一。
一个实际例子:你的 system prompt 有 80000 token(一份详细的公司规范文档),每天 5000 次请求。
不用缓存:80000 × 5000 = 4 亿 token/天,$2 × 400 = $800/天,$24,000/月。 用缓存:首次缓存 $0.16,后续 4999 次读缓存 = 4 亿 token × $0.20/百万 = $80/天,$2,400/月。
省了 90%。
前提是这段内容在多次请求之间不变。如果每次请求的上下文都不一样,缓存命中率低,这个机制就没意义了。
还有一个 Implicit Context Caching(隐式缓存),Vertex AI 文档里提到 Gemini 3.1 Pro 支持。也就是系统自动检测重复的上下文前缀,自动缓存。这个不需要你手动配置,但具体的缓存策略和命中率 Google 没有公开。
免费额度够干什么
Google AI Studio 的免费档大概是:
- RPM(每分钟请求数):5-15 次
- RPD(每天请求数):20-100 次
- TPM(每分钟 token 数):250,000
每天最多 100 次请求,够写个 demo 和跑几轮测试。做原型验证可以用,但上生产不够。
注意一个坑:2025 年 12 月 Google 把免费档的每日请求数做了"显著下调"(从几百次降到 20-100 次)。如果你之前用免费额度跑过 Gemini 2.5 的项目,切到 3.1 Pro 的时候可能会发现免费额度缩水了。
Batch Prediction
批量预测在 Preview 阶段不支持。如果你有大批量离线处理需求(比如一次性处理 10 万份文档),目前只能用在线 API 逐条调用。批量折扣要等 GA 版本。
Vertex AI 支持 Priority PayGo、Flex PayGo、Standard PayGo 和 Provisioned Throughput 四种消费模式,但 Preview 阶段可用的选项有限。如果你是大客户,建议直接和 Google Cloud 的客户经理谈自定义方案。
我的建议
如果你在做模型选型的成本评估,别被单价表面上的数字蒙了。拿计算器算一遍你的具体场景:请求量 × 输入 token × 推理 token × 输出 token,分三档算出来再做决定。
大多数场景下 Gemini 3.1 Pro + MEDIUM 模式是性价比最好的组合。需要控制延迟的场景用 LOW,需要极致推理的小流量场景才用 HIGH。
参考资料
- Gemini API 定价与配额,AI Free API:https://www.aifreeapi.com/en/posts/gemini-api-pricing-and-quotas
- Gemini 3.1 Pro Preview 定价,CloudPrice:https://cloudprice.net/models/vertex_ai%2Fgemini-3.1-pro-preview
- Gemini API 计费文档,Google AI for Developers:https://ai.google.dev/gemini-api/docs/billing
- Gemini 3.1 Pro Vertex AI 文档(消费模式),Google Cloud:https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-1-pro
- Gemini 3.1 Pro vs Claude Opus 4.6 定价对比,AI Free API:https://www.aifreeapi.com/en/posts/gemini-3-1-pro-preview-vs-opus-4-6