Gemini 3.1 Flash-Lite：快得离谱，“Lite”却不再便宜

3 月 3 日，Google 把 Gemini 3.1 Flash-Lite 上线到了 Gemini API 和 Vertex AI（预览版）。没有太多铺垫，但圈子里讨论很集中：速度是真的快；而“Lite”这两个字，这次有点误导人。

我把官方数据、GitHub 上的吐槽翻了一遍，结论挺简单：它不像“丐版”，更像一颗专门给高并发场景准备的子弹——跑得飞快，也更会做题，但你得接受它不再是“超低价”。

1）快：真正要命的是“首字延迟”

很多模型在跑分上赢一两分，体感不一定明显；但 Time to First Token（首字延迟） 这种指标，用户一秒就能感知。

公开资料里有两组数字很直观：

如果你做过语音对话、客服、IDE 辅助这类产品就知道：模型不是“慢”，用户不会骂；模型是“卡一下再回”，用户会觉得整套交互都不顺。Flash-Lite 这次明显是奔着“不要让人等”去的。

更反直觉的点在于它的能力并不拉胯。官方页给的 GPQA Diamond（科学题）数据是 86.9%，对比 2.5 Flash 的 82.8%、2.5 Flash-Lite 的 66.7%，差距很扎眼。

我不想在公众号里堆一堆跑分，但这个结论值得记住：它不是用更低价换更差的脑子，而是在“速度/成本/能力”这三角里换了个站位。

顺带一提，它的规格也不小：输入 1M、输出 64k，知识截止到 2025 年 1 月，并且支持函数调用、结构化输出、把搜索当工具用这些“工程向能力”。

3.1 Flash-Lite 的一个关键词是 Flexible reasoning levels（可选思考层级）。

这句话听起来很玄，落到工程上其实是：同一个模型，你可以让它在简单任务上“别想太多，赶紧回”；也可以在复杂任务上“多想一会儿再开口”。你付出的代价一般就是延迟和 token（最终还是钱），换来的是更稳定的推理和更少的返工。

如果你以前用 Lite 模型做过抽取、路由、结构化输出这种活儿，你应该懂我在说什么：很多成本不是单价贵，而是返工贵。

这也是争议最大的地方。

3.1 Flash-Lite 的官方标价（不含缓存）是：

如果你是 2.5 Flash-Lite 的老用户（输入 $0.10、输出 $0.40），那第一反应基本都是：“这也叫 Lite？”

但如果你拿它去对比 2.5 Flash（输入 $0.30、输出 $2.50），它又确实更便宜。也就是说：它把“Lite”的含义，从“极致便宜”改成了“单位能力更划算”。 至少从官方站位来看是这样。

还有两个能直接影响账单的点别忽略：

上下文缓存（Context caching）：3.1 Flash-Lite 的缓存价是 $0.025 / 1M tokens（文本/图像/视频），适合“同一份长上下文反复问”的场景
Batch（批处理）：在 Vertex AI 的 batch inference 里，官方说明是 按实时推理 5 折计费；但要注意，缓存 90% 的优惠和 batch 5 折不叠加，缓存命中时优先走缓存价

这俩策略，一个是“重复上下文省钱”，一个是“非实时任务省钱”。选哪个，得看业务。

这次讨论热度里，有一半其实跟模型能力无关，而是跟 发布节奏和容量 有关。

在 google-gemini/gemini-cli 的公告讨论里，维护者明确说了 3.1 是分批开放的；评论区里最常见的抱怨就两种：

说白了：你要把它接进生产，就得做心理准备——不是每次调用都能像跑分那样顺滑。工程上要么做降级/兜底，要么做路由，要么做批处理，把“波动”从用户面前藏起来。

如果你问我值不值得上，我会按场景分三档：

最后一句话：3.1 Flash-Lite 不是“便宜版”，更像“速度版”。你把它当成一颗高并发子弹来用，它就很香；你非要拿它当“白菜价模型”，那当然会觉得它变贵了。