GLM-5 Pro 套餐刚买就限速,到底怎么回事

GLM-5 Pro 套餐刚买就限速,到底怎么回事

大家好,我是 147。

GLM-5 API 发布不到 12 小时,GitHub 上就出现了第一条投诉。用户 @08mamba24 在 zai-org/GLM-5 仓库开了 issue #5,标题直截了当:

pro 套餐早上刚用就限速,活不起了吗?

他贴了截图,显示配额只用了 2%,但系统已经开始限速。另一个用户跟帖问:"现在还只能用 4.7,不能用 5.0 吗?"

这个 issue 反映的是 GLM-5 上线初期一个非常普遍的痛点:订阅制的"大模型 Coding Plan"到底怎么算配额、怎么触发限速、以及遇到限速该怎么办。

智谱 GLM-5 Coding Plan 的定价和配额机制

先理清现状。智谱的 Coding Plan 是一个订阅制服务,让你用 Claude Code、OpenCode、Kilo Code、Roo Code 这些 IDE 编码智能体时,后端接入 GLM 系列模型。

套餐分几个档次。官方在 GLM-5 发布时提到了一个关键信息:

GLM-5 requests consume more plan quota than GLM-4.7.

也就是说,同样的订阅额度,调 GLM-5 比调 GLM-4.7 消耗更多配额。具体多多少,官方没给明确数字。

另外,GLM-5 目前只对 Max 套餐用户全量开放。其他套餐的用户需要等待逐步放量。

GLM-5 API 限速的三个层面

结合社区反馈和 API 文档,GLM-5 的限速至少体现在三个层面:

QPS 限制。 每秒请求数有上限。你不能同时开 10 个 Claude Code 窗口疯狂发请求。

并发限制。 同一时间允许的活跃请求数。编码 Agent 的特点是请求链很长,一个任务可能连续发十几次请求,中间穿插工具调用。如果前一个请求还没返回,新请求就会被排队。

Token 速率限制。 单位时间内输入+输出的 token 总量。GLM-5 的单次最大输出是 131K token,如果你频繁要求长输出,token 速率的上限很容易触达。

那位用户"只用了 2% 配额就限速",大概率不是配额本身用完了,而是触发了 QPS 或并发的短期限制。这两者的区别在于:配额是月度总量,限速是瞬时流量控制。即使月度额度很充裕,你在短时间内密集调用也会被限速。

但说实话,智谱在这方面的文档写得不够清晰。用户分不清"限速"和"额度用完"是两回事,体验就很差。

GLM-5 比 GLM-4.7 更容易触发限速的原因

两个原因。

第一,GLM-5 的计算成本更高。744B 参数的 MoE 模型,即使只激活 40B,每次推理的 GPU 占用也比 GLM-4.7 的 355B 模型高出不少。服务器端的推理卡数量是固定的,涌入太多请求自然要限流。

第二,发布当天的流量洪峰。所有人都在第一时间试用新模型,跟双十一抢购是一个道理。智谱自己也说了"limited compute capacity",所以选择了"gradual rollout"的策略。

这两个原因叠在一起,首日体验差几乎是必然的。但用户花了钱买 Pro 套餐,第一天就被限速,不爽也是正常的。

GLM-5 限速的四个应对策略

如果你在用 GLM-5 的 API 做 Agent 或编码助手,限速是迟早要面对的问题。以下是四个实用策略:

1. 模型降级:GLM-5 → GLM-4.7 → Flash 自动切换

最简单的办法:GLM-5 限速时自动切到 GLM-4.7,GLM-4.7 限速时切到 GLM-4.7-FlashX。

从价格看:

| 模型 | 输入价格 ($/1M token) | 输出价格 ($/1M token) | |---|---|---| | GLM-4.7 | $0.6 | $2.2 | | GLM-4.7-FlashX | $0.07 | $0.4 | | GLM-4.5-Air | $0.2 | $1.1 | | GLM-4.7-Flash | 免费 | 免费 |

GLM-4.7-Flash 完全免费,适合做兜底。质量肯定比 GLM-5 差一截,但对于简单的代码补全和格式化任务,够用了。

在代码层面,检测到 429 状态码(rate limit)后,做一个带指数退避的重试 + 模型降级逻辑:

import time

MODELS = ["glm-5", "glm-4.7", "glm-4.7-flashx", "glm-4.7-flash"]

def call_with_fallback(messages, model_idx=0, max_retries=3):
    for attempt in range(max_retries):
        try:
            return call_api(MODELS[model_idx], messages)
        except RateLimitError:
            if model_idx + 1 < len(MODELS):
                return call_with_fallback(messages, model_idx + 1)
            wait = 2 ** attempt
            time.sleep(wait)
    raise Exception("所有模型都限速了")

2. 减少 token 消耗:diff 模式 + Context Caching

编码 Agent 有个常见的浪费:每次请求都把完整的文件内容发过去。一个 2000 行的文件,每次修改 3 行,也要传整个文件,来回几次就是几万 token。

优化方法:只传 diff。让 Agent 输出的不是完整文件,而是需要修改的行号和内容。这样输入和输出的 token 数都能大幅减少。

另一个优化:善用 Context Caching。把系统 prompt 和项目背景缓存起来,后续请求复用。缓存输入的价格只有普通输入的约 1/6。

3. 控制 Agent 的请求频率

很多编码 Agent 默认是"想到就发"——每完成一步就立刻发起下一个请求。这种模式在限速环境下很容易触发 QPS 限制。

一个简单的改法是在 Agent 的执行循环里加一个最小间隔。比如每两次请求之间至少等 2 秒。牺牲一点速度,但能大幅降低被限速的概率。

4. 分时段使用

这个比较朴素但有效。根据社区反馈,GLM-5 在北京时间下午 2-6 点和晚上 8-11 点是使用高峰。如果你的任务不急,可以把大批量的 Agent 任务放在凌晨或早上跑。

GLM-5 Coding Plan 值不值得买

回到那个投诉用户的核心情绪——"花了钱,用不上,活不起了吗?"

这个问题的本质是:大模型 API 的定价模型和用户预期之间有落差。

用户买 Pro 套餐的心理模型是"包月宽带"——付了钱就该随便用。但实际的定价逻辑更接近"带宽计费"——你买的是一个月内的总流量,但瞬时带宽有上限。

我个人觉得,智谱应该做两件事来改善这个体验:

第一,在 Coding Plan 页面明确标注 QPS 限制、并发限制和 token 速率限制的具体数值,不要让用户猜。

第二,在 API 返回的 rate limit header 里带上剩余配额和重置时间,让开发者能在代码里做精确的流控。

在这些改善到位之前,作为用户能做的就是用好上面提到的那些策略:降级、省 token、控频率、错峰用。

多平台 LLM Router:避免被单一供应商限速

如果你的 Agent 需要稳定运行,不想被单一供应商的限速卡住,更根本的方案是做多平台路由。

GLM-5 已经上线了 OpenRouter、SiliconFlow 等第三方推理平台。你可以同时配置多个 API 端点,某个平台限速了就自动切到另一个。

类似的思路也适用于模型级别的路由:简单任务用便宜的小模型,复杂任务用 GLM-5 或 Claude,根据任务难度动态选择。

这个方向上已经有一些开源的 LLM Router 项目,比如 LiteLLM。配合 Coding Plan 使用,可以在成本和可用性之间找到更好的平衡点。

常见问题

GLM-5 API 的价格是多少? 智谱暂未单独公布 GLM-5 的按量计费价格。目前 GLM-5 主要通过 Coding Plan 订阅使用,按量计费参考 GLM-4.7 的定价:输入 $0.6/1M token,输出 $2.2/1M token。GLM-5 的配额消耗比 GLM-4.7 更高。

GLM-5 Coding Plan 的 Pro 套餐为什么刚用就限速? 这通常是触发了 QPS(每秒请求数)或并发数的短期限制,不是月度配额用完。配额和限速是两个独立机制。发布初期算力有限,限流会更严格。

被限速了怎么办? 四个策略:自动降级到 GLM-4.7/Flash、用 diff 模式减少 token、控制请求频率(加 2 秒间隔)、错峰使用(避开下午 2-6 点和晚上 8-11 点)。


参考资料:

  • GitHub issue: zai-org/GLM-5 #5(Pro 套餐限速投诉)
  • Z.ai 定价页面:docs.z.ai/guides/overview/pricing
  • Z.ai Coding Plan 文档:docs.z.ai/devpack/overview
← 返回博客列表