GLM-5 Pro 套餐刚买就限速,到底怎么回事
大家好,我是 147。
GLM-5 API 发布不到 12 小时,GitHub 上就出现了第一条投诉。用户 @08mamba24 在 zai-org/GLM-5 仓库开了 issue #5,标题直截了当:
pro 套餐早上刚用就限速,活不起了吗?
他贴了截图,显示配额只用了 2%,但系统已经开始限速。另一个用户跟帖问:"现在还只能用 4.7,不能用 5.0 吗?"
这个 issue 反映的是 GLM-5 上线初期一个非常普遍的痛点:订阅制的"大模型 Coding Plan"到底怎么算配额、怎么触发限速、以及遇到限速该怎么办。
智谱 GLM-5 Coding Plan 的定价和配额机制
先理清现状。智谱的 Coding Plan 是一个订阅制服务,让你用 Claude Code、OpenCode、Kilo Code、Roo Code 这些 IDE 编码智能体时,后端接入 GLM 系列模型。
套餐分几个档次。官方在 GLM-5 发布时提到了一个关键信息:
GLM-5 requests consume more plan quota than GLM-4.7.
也就是说,同样的订阅额度,调 GLM-5 比调 GLM-4.7 消耗更多配额。具体多多少,官方没给明确数字。
另外,GLM-5 目前只对 Max 套餐用户全量开放。其他套餐的用户需要等待逐步放量。
GLM-5 API 限速的三个层面
结合社区反馈和 API 文档,GLM-5 的限速至少体现在三个层面:
QPS 限制。 每秒请求数有上限。你不能同时开 10 个 Claude Code 窗口疯狂发请求。
并发限制。 同一时间允许的活跃请求数。编码 Agent 的特点是请求链很长,一个任务可能连续发十几次请求,中间穿插工具调用。如果前一个请求还没返回,新请求就会被排队。
Token 速率限制。 单位时间内输入+输出的 token 总量。GLM-5 的单次最大输出是 131K token,如果你频繁要求长输出,token 速率的上限很容易触达。
那位用户"只用了 2% 配额就限速",大概率不是配额本身用完了,而是触发了 QPS 或并发的短期限制。这两者的区别在于:配额是月度总量,限速是瞬时流量控制。即使月度额度很充裕,你在短时间内密集调用也会被限速。
但说实话,智谱在这方面的文档写得不够清晰。用户分不清"限速"和"额度用完"是两回事,体验就很差。
GLM-5 比 GLM-4.7 更容易触发限速的原因
两个原因。
第一,GLM-5 的计算成本更高。744B 参数的 MoE 模型,即使只激活 40B,每次推理的 GPU 占用也比 GLM-4.7 的 355B 模型高出不少。服务器端的推理卡数量是固定的,涌入太多请求自然要限流。
第二,发布当天的流量洪峰。所有人都在第一时间试用新模型,跟双十一抢购是一个道理。智谱自己也说了"limited compute capacity",所以选择了"gradual rollout"的策略。
这两个原因叠在一起,首日体验差几乎是必然的。但用户花了钱买 Pro 套餐,第一天就被限速,不爽也是正常的。
GLM-5 限速的四个应对策略
如果你在用 GLM-5 的 API 做 Agent 或编码助手,限速是迟早要面对的问题。以下是四个实用策略:
1. 模型降级:GLM-5 → GLM-4.7 → Flash 自动切换
最简单的办法:GLM-5 限速时自动切到 GLM-4.7,GLM-4.7 限速时切到 GLM-4.7-FlashX。
从价格看:
| 模型 | 输入价格 ($/1M token) | 输出价格 ($/1M token) | |---|---|---| | GLM-4.7 | $0.6 | $2.2 | | GLM-4.7-FlashX | $0.07 | $0.4 | | GLM-4.5-Air | $0.2 | $1.1 | | GLM-4.7-Flash | 免费 | 免费 |
GLM-4.7-Flash 完全免费,适合做兜底。质量肯定比 GLM-5 差一截,但对于简单的代码补全和格式化任务,够用了。
在代码层面,检测到 429 状态码(rate limit)后,做一个带指数退避的重试 + 模型降级逻辑:
import time
MODELS = ["glm-5", "glm-4.7", "glm-4.7-flashx", "glm-4.7-flash"]
def call_with_fallback(messages, model_idx=0, max_retries=3):
for attempt in range(max_retries):
try:
return call_api(MODELS[model_idx], messages)
except RateLimitError:
if model_idx + 1 < len(MODELS):
return call_with_fallback(messages, model_idx + 1)
wait = 2 ** attempt
time.sleep(wait)
raise Exception("所有模型都限速了")
2. 减少 token 消耗:diff 模式 + Context Caching
编码 Agent 有个常见的浪费:每次请求都把完整的文件内容发过去。一个 2000 行的文件,每次修改 3 行,也要传整个文件,来回几次就是几万 token。
优化方法:只传 diff。让 Agent 输出的不是完整文件,而是需要修改的行号和内容。这样输入和输出的 token 数都能大幅减少。
另一个优化:善用 Context Caching。把系统 prompt 和项目背景缓存起来,后续请求复用。缓存输入的价格只有普通输入的约 1/6。
3. 控制 Agent 的请求频率
很多编码 Agent 默认是"想到就发"——每完成一步就立刻发起下一个请求。这种模式在限速环境下很容易触发 QPS 限制。
一个简单的改法是在 Agent 的执行循环里加一个最小间隔。比如每两次请求之间至少等 2 秒。牺牲一点速度,但能大幅降低被限速的概率。
4. 分时段使用
这个比较朴素但有效。根据社区反馈,GLM-5 在北京时间下午 2-6 点和晚上 8-11 点是使用高峰。如果你的任务不急,可以把大批量的 Agent 任务放在凌晨或早上跑。
GLM-5 Coding Plan 值不值得买
回到那个投诉用户的核心情绪——"花了钱,用不上,活不起了吗?"
这个问题的本质是:大模型 API 的定价模型和用户预期之间有落差。
用户买 Pro 套餐的心理模型是"包月宽带"——付了钱就该随便用。但实际的定价逻辑更接近"带宽计费"——你买的是一个月内的总流量,但瞬时带宽有上限。
我个人觉得,智谱应该做两件事来改善这个体验:
第一,在 Coding Plan 页面明确标注 QPS 限制、并发限制和 token 速率限制的具体数值,不要让用户猜。
第二,在 API 返回的 rate limit header 里带上剩余配额和重置时间,让开发者能在代码里做精确的流控。
在这些改善到位之前,作为用户能做的就是用好上面提到的那些策略:降级、省 token、控频率、错峰用。
多平台 LLM Router:避免被单一供应商限速
如果你的 Agent 需要稳定运行,不想被单一供应商的限速卡住,更根本的方案是做多平台路由。
GLM-5 已经上线了 OpenRouter、SiliconFlow 等第三方推理平台。你可以同时配置多个 API 端点,某个平台限速了就自动切到另一个。
类似的思路也适用于模型级别的路由:简单任务用便宜的小模型,复杂任务用 GLM-5 或 Claude,根据任务难度动态选择。
这个方向上已经有一些开源的 LLM Router 项目,比如 LiteLLM。配合 Coding Plan 使用,可以在成本和可用性之间找到更好的平衡点。
常见问题
GLM-5 API 的价格是多少? 智谱暂未单独公布 GLM-5 的按量计费价格。目前 GLM-5 主要通过 Coding Plan 订阅使用,按量计费参考 GLM-4.7 的定价:输入 $0.6/1M token,输出 $2.2/1M token。GLM-5 的配额消耗比 GLM-4.7 更高。
GLM-5 Coding Plan 的 Pro 套餐为什么刚用就限速? 这通常是触发了 QPS(每秒请求数)或并发数的短期限制,不是月度配额用完。配额和限速是两个独立机制。发布初期算力有限,限流会更严格。
被限速了怎么办? 四个策略:自动降级到 GLM-4.7/Flash、用 diff 模式减少 token、控制请求频率(加 2 秒间隔)、错峰使用(避开下午 2-6 点和晚上 8-11 点)。
参考资料:
- GitHub issue: zai-org/GLM-5 #5(Pro 套餐限速投诉)
- Z.ai 定价页面:docs.z.ai/guides/overview/pricing
- Z.ai Coding Plan 文档:docs.z.ai/devpack/overview