Gemini 3.1 Pro 定价拆解:用它开发,到底花多少钱

Gemini 3.1 Pro 定价拆解:用它开发,到底花多少钱

Gemini 3.1 Pro 目前是 Preview 阶段,正式定价已经公布:输入 $2/百万 token,输出 $12/百万 token,缓存读取 $0.20/百万 token。和同级别的模型比,这个价格是偏低的——Claude Opus 4.6 输入 $15/百万 token,输出 $75/百万 token,直接差了 6 倍多。

不过价格低这件事在这里稍微复杂一点。Gemini 3.1 Pro 的推理 token 也是要算钱的,而且你可能没意识到推理 token 在 HIGH 模式下有多"贵"。

基础定价

类型 价格
输入 token $2.00 / 百万
输出 token $12.00 / 百万
缓存读取 $0.20 / 百万

这个定价在 Google AI Studio、Gemini API 和 Vertex AI 上是一致的。

推理 token 的隐性成本

这是容易踩坑的地方。Gemini 3.1 Pro 的思考过程(thinking tokens)也是按输出 token 计费的,不是免费的。HIGH 模式下单次请求的推理 token 最多可以到 32768 个,按 $12/百万 token 算:

  • 32768 推理 token = 约 $0.000393/次请求
  • 如果每天跑 10000 次请求,光推理 token 就是约 $3.93/天

单看一次不多,但如果你在跑高并发的生产流量,这个数字会积累得很快。MEDIUM 模式推理 token 上限约 8000 个,同样计算:10000 次请求推理 token 约 $0.96/天。差了约 4 倍。

Context Caching 的实际价值

Context Caching(上下文缓存)是 Gemini API 的一个功能:把一段固定的上下文(比如系统 prompt、长文档、代码库)缓存起来,后续请求直接读缓存,不用重复付输入费。

缓存读取只需要 $0.20/百万 token,是正常输入的 1/10。

适合用缓存的场景:有一个很长的固定 system prompt(比如公司规范文档、产品说明书),每次请求都要带着它。用 Context Caching 之后,这部分只在第一次付正常输入价格,后续只付 $0.20/百万 token。

不适合用缓存的场景:每次请求上下文都不一样,或者会话轮次之间的内容变化很大,缓存命中率会很低,意义不大。

和 Claude Opus 4.6 的实际成本对比

假设一个典型的工程师助手场景:每次请求输入 2000 token,输出 500 token,使用 MEDIUM 思考等级(内部推理 token 约 5000 个),每天 1000 次请求。

Gemini 3.1 Pro:

  • 输入:2000 × 1000 = 200万 token = $4.00
  • 推理:5000 × 1000 = 500万 token = $60.00(按输出价格计)
  • 输出:500 × 1000 = 50万 token = $6.00
  • 合计约 $70/天

等等,这算完才发现推理 token 是大头。如果改 LOW 模式(推理 500 token):

  • 推理:500 × 1000 = 50万 token = $6.00
  • 合计约 $16/天

Claude Opus 4.6(不带推理模式):

  • 输入:$15 × 2 = $30.00
  • 输出:$75 × 0.5 = $37.50
  • 合计约 $67.50/天

结论是:Gemini 3.1 Pro 用 LOW 或 MEDIUM 确实便宜很多,但如果默认开 HIGH,成本会因为推理 token 上去一大截。这个要在实际使用前想清楚。

免费额度

Google AI Studio 有免费配额,目前 Gemini 3.1 Pro 免费档的限制大约是:

  • 每分钟 5-15 次请求(RPM)
  • 每天 20-100 次请求(RPD)

这个只够测试用,上了生产要切付费 API。

Preview 阶段不支持 Batch Prediction,如果你有大批量离线处理的需求,要等 GA 之后看看有没有批量折扣。


参考资料

← 返回博客列表