GLM-5 Pro 套餐刚买就限速，到底怎么回事

大家好，我是 147。

GLM-5 API 发布不到 12 小时，GitHub 上就出现了第一条投诉。用户 @08mamba24 在 zai-org/GLM-5 仓库开了 issue #5，标题直截了当：

pro 套餐早上刚用就限速，活不起了吗？

他贴了截图，显示配额只用了 2%，但系统已经开始限速。另一个用户跟帖问："现在还只能用 4.7，不能用 5.0 吗？"

这个 issue 反映的是 GLM-5 上线初期一个非常普遍的痛点：订阅制的"大模型 Coding Plan"到底怎么算配额、怎么触发限速、以及遇到限速该怎么办。

智谱 GLM-5 Coding Plan 的定价和配额机制

先理清现状。智谱的 Coding Plan 是一个订阅制服务，让你用 Claude Code、OpenCode、Kilo Code、Roo Code 这些 IDE 编码智能体时，后端接入 GLM 系列模型。

套餐分几个档次。官方在 GLM-5 发布时提到了一个关键信息：

GLM-5 requests consume more plan quota than GLM-4.7.

也就是说，同样的订阅额度，调 GLM-5 比调 GLM-4.7 消耗更多配额。具体多多少，官方没给明确数字。

另外，GLM-5 目前只对 Max 套餐用户全量开放。其他套餐的用户需要等待逐步放量。

GLM-5 API 限速的三个层面

结合社区反馈和 API 文档，GLM-5 的限速至少体现在三个层面：

QPS 限制。 每秒请求数有上限。你不能同时开 10 个 Claude Code 窗口疯狂发请求。

并发限制。 同一时间允许的活跃请求数。编码 Agent 的特点是请求链很长，一个任务可能连续发十几次请求，中间穿插工具调用。如果前一个请求还没返回，新请求就会被排队。

Token 速率限制。 单位时间内输入+输出的 token 总量。GLM-5 的单次最大输出是 131K token，如果你频繁要求长输出，token 速率的上限很容易触达。

那位用户"只用了 2% 配额就限速"，大概率不是配额本身用完了，而是触发了 QPS 或并发的短期限制。这两者的区别在于：配额是月度总量，限速是瞬时流量控制。即使月度额度很充裕，你在短时间内密集调用也会被限速。

但说实话，智谱在这方面的文档写得不够清晰。用户分不清"限速"和"额度用完"是两回事，体验就很差。

GLM-5 比 GLM-4.7 更容易触发限速的原因

两个原因。

第一，GLM-5 的计算成本更高。744B 参数的 MoE 模型，即使只激活 40B，每次推理的 GPU 占用也比 GLM-4.7 的 355B 模型高出不少。服务器端的推理卡数量是固定的，涌入太多请求自然要限流。

第二，发布当天的流量洪峰。所有人都在第一时间试用新模型，跟双十一抢购是一个道理。智谱自己也说了"limited compute capacity"，所以选择了"gradual rollout"的策略。

这两个原因叠在一起，首日体验差几乎是必然的。但用户花了钱买 Pro 套餐，第一天就被限速，不爽也是正常的。

GLM-5 限速的四个应对策略

如果你在用 GLM-5 的 API 做 Agent 或编码助手，限速是迟早要面对的问题。以下是四个实用策略：

1. 模型降级：GLM-5 → GLM-4.7 → Flash 自动切换

最简单的办法：GLM-5 限速时自动切到 GLM-4.7，GLM-4.7 限速时切到 GLM-4.7-FlashX。

从价格看：

| 模型 | 输入价格 ($/1M token) | 输出价格 ($/1M token) | |---|---|---| | GLM-4.7 | $0.6 | $2.2 | | GLM-4.7-FlashX | $0.07 | $0.4 | | GLM-4.5-Air | $0.2 | $1.1 | | GLM-4.7-Flash | 免费 | 免费 |

GLM-4.7-Flash 完全免费，适合做兜底。质量肯定比 GLM-5 差一截，但对于简单的代码补全和格式化任务，够用了。

在代码层面，检测到 429 状态码（rate limit）后，做一个带指数退避的重试 + 模型降级逻辑：

import time

MODELS = ["glm-5", "glm-4.7", "glm-4.7-flashx", "glm-4.7-flash"]

def call_with_fallback(messages, model_idx=0, max_retries=3):
    for attempt in range(max_retries):
        try:
            return call_api(MODELS[model_idx], messages)
        except RateLimitError:
            if model_idx + 1 < len(MODELS):
                return call_with_fallback(messages, model_idx + 1)
            wait = 2 ** attempt
            time.sleep(wait)
    raise Exception("所有模型都限速了")

2. 减少 token 消耗：diff 模式 + Context Caching

编码 Agent 有个常见的浪费：每次请求都把完整的文件内容发过去。一个 2000 行的文件，每次修改 3 行，也要传整个文件，来回几次就是几万 token。

优化方法：只传 diff。让 Agent 输出的不是完整文件，而是需要修改的行号和内容。这样输入和输出的 token 数都能大幅减少。

另一个优化：善用 Context Caching。把系统 prompt 和项目背景缓存起来，后续请求复用。缓存输入的价格只有普通输入的约 1/6。

3. 控制 Agent 的请求频率

很多编码 Agent 默认是"想到就发"——每完成一步就立刻发起下一个请求。这种模式在限速环境下很容易触发 QPS 限制。

一个简单的改法是在 Agent 的执行循环里加一个最小间隔。比如每两次请求之间至少等 2 秒。牺牲一点速度，但能大幅降低被限速的概率。

4. 分时段使用

这个比较朴素但有效。根据社区反馈，GLM-5 在北京时间下午 2-6 点和晚上 8-11 点是使用高峰。如果你的任务不急，可以把大批量的 Agent 任务放在凌晨或早上跑。

GLM-5 Coding Plan 值不值得买

回到那个投诉用户的核心情绪——"花了钱，用不上，活不起了吗？"

这个问题的本质是：大模型 API 的定价模型和用户预期之间有落差。

用户买 Pro 套餐的心理模型是"包月宽带"——付了钱就该随便用。但实际的定价逻辑更接近"带宽计费"——你买的是一个月内的总流量，但瞬时带宽有上限。

我个人觉得，智谱应该做两件事来改善这个体验：

第一，在 Coding Plan 页面明确标注 QPS 限制、并发限制和 token 速率限制的具体数值，不要让用户猜。

第二，在 API 返回的 rate limit header 里带上剩余配额和重置时间，让开发者能在代码里做精确的流控。

在这些改善到位之前，作为用户能做的就是用好上面提到的那些策略：降级、省 token、控频率、错峰用。

多平台 LLM Router：避免被单一供应商限速

如果你的 Agent 需要稳定运行，不想被单一供应商的限速卡住，更根本的方案是做多平台路由。

GLM-5 已经上线了 OpenRouter、SiliconFlow 等第三方推理平台。你可以同时配置多个 API 端点，某个平台限速了就自动切到另一个。

类似的思路也适用于模型级别的路由：简单任务用便宜的小模型，复杂任务用 GLM-5 或 Claude，根据任务难度动态选择。

这个方向上已经有一些开源的 LLM Router 项目，比如 LiteLLM。配合 Coding Plan 使用，可以在成本和可用性之间找到更好的平衡点。

常见问题

GLM-5 API 的价格是多少？ 智谱暂未单独公布 GLM-5 的按量计费价格。目前 GLM-5 主要通过 Coding Plan 订阅使用，按量计费参考 GLM-4.7 的定价：输入 $0.6/1M token，输出 $2.2/1M token。GLM-5 的配额消耗比 GLM-4.7 更高。

GLM-5 Coding Plan 的 Pro 套餐为什么刚用就限速？ 这通常是触发了 QPS（每秒请求数）或并发数的短期限制，不是月度配额用完。配额和限速是两个独立机制。发布初期算力有限，限流会更严格。

被限速了怎么办？ 四个策略：自动降级到 GLM-4.7/Flash、用 diff 模式减少 token、控制请求频率（加 2 秒间隔）、错峰使用（避开下午 2-6 点和晚上 8-11 点）。

参考资料：

GitHub issue: zai-org/GLM-5 #5（Pro 套餐限速投诉）
Z.ai 定价页面：docs.z.ai/guides/overview/pricing
Z.ai Coding Plan 文档：docs.z.ai/devpack/overview