Model Routing:不是所有请求都值得用 GPT-5

Model Routing:不是所有请求都值得用 GPT-5

你的 AI 客服每天处理一万条消息。其中大概六千条是"我的订单到哪了""怎么退货""营业时间是几点"。剩下四千条才涉及退款协商、投诉升级、多轮推理这类需要强模型的场景。

如果所有请求都打给 GPT-5.2($1.75/$14.00 每百万 Token),月账单大约 4200 美元。但如果把那六千条简单请求路由给 GPT-5-mini($0.30/$1.00),只把复杂请求交给大模型,月账单能降到 1800 美元左右。省了 57%。

这就是 Model Routing 的基本逻辑:不是选一个模型用到底,而是根据请求的复杂度动态分配模型。

路由怎么判断"简单还是复杂"

方法有好几种,从粗到细。

关键词规则。最土但最可控。写一批正则:匹配到"订单号""物流""营业时间"的走小模型,匹配到"投诉""赔偿""法律"的走大模型。好处是延迟为零,坏处是维护成本高,漏网的多。

分类器。训练一个小模型(甚至用 logistic regression 就行)对请求做二分类或多分类。输入是用户消息的 embedding,输出是"简单/中等/复杂"。这是目前生产环境里最常见的做法,准确率能到 85-90%。

LLM 自评。让一个便宜的模型先判断难度,再决定用谁回答。比如先发给 GPT-5-mini:"这个问题需要深度推理吗?回答 yes 或 no。"这个方法灵活,但多了一跳,延迟会增加 200-500ms。

历史统计。根据用户画像、会话轮次、历史满意度来路由。新用户第一轮给大模型(第一印象很重要),老用户的常规咨询给小模型。这个需要数据积累,冷启动阶段用不了。

实际做的时候,通常是混合使用:关键词规则做第一层快筛,分类器做主路由,边缘情况兜底给大模型。

路由不只是选模型,还有 fallback

路由的另一个作用是容错。如果首选模型超时或报错,自动切换到备选模型,用户无感。

一个常见的 fallback 链:

GPT-5.2 → Claude 4 Sonnet → GPT-5-mini → 兜底话术

看起来简单,但有两个坑。

第一个坑是输出格式不一致。GPT 和 Claude 对 JSON 输出的处理方式有细微差别。如果你的下游代码严格解析 JSON,切换模型后可能解析失败。解决办法是在网关层做一次输出标准化,或者用 Structured Output 功能约束格式。

第二个坑是Token 计算差异。OpenAI 和 Anthropic 的 tokenizer 不一样。同一段文本,GPT 算 500 Token,Claude 可能算 480。如果你的限流和计费逻辑依赖 Token 数,切换模型后数字对不上。要么用统一的 tokenizer 估算,要么按模型分别计算。

路由抖动:一个容易被忽略的问题

我们在生产中遇到过一个微妙的 Bug:同一个用户的连续请求被路由到不同模型,导致回复风格突变。

用户前一秒收到 Claude 的回复(偏严谨、长句居多),下一秒切到了 GPT-mini(偏简洁、口语化)。用户不知道背后有路由,只觉得"这个 AI 怎么突然变了个人"。

解决办法是加会话亲和性:同一个会话 ID 在整个对话过程中绑定同一个模型(除非该模型不可用)。技术上不难,在路由层维护一个 session → model 的映射表就行。但一开始没想到,上线后被用户投诉才发现。

灰度和观测

路由策略不能拍脑袋定完就上线。建议用灰度方式逐步推进:

  1. 先在 5% 的流量上测试路由策略,对比路由组和全量大模型组的用户满意度、任务完成率。
  2. 如果路由组的满意度下降不超过 2%,逐步放量到 20%、50%、100%。
  3. 持续监控每个模型的响应质量。一旦小模型在某类请求上表现明显变差,缩小它的路由范围。

监控指标要同时看成本和质量。只看省了多少钱不够,还得看用户体验有没有劣化。最好的状态是:用户完全感知不到你在背后做了路由,但你的账单少了一半。

不同场景的路由比例参考

| 场景 | 大模型占比 | 小模型占比 | 预期节省 | |------|-----------|-----------|---------| | 客服问答 | 30-40% | 60-70% | 40-55% | | 内容生成(营销文案) | 70-80% | 20-30% | 15-25% | | 代码补全 | 20-30% | 70-80% | 50-60% | | 数据提取/格式化 | 10-20% | 80-90% | 60-70% | | 多轮推理/分析 | 80-90% | 10-20% | 8-15% |

规律很直观:越是需要创造力和推理能力的任务,大模型占比越高;越是模板化、结构化的任务,小模型越能胜任。

路由的下一步:不止是省钱

2026 年我观察到一个趋势:路由不再只为省钱,也开始为合规延迟服务。

比如,某些数据不能发到海外服务器。路由层可以根据请求中的敏感字段,自动把这类请求分到国产模型或私有部署的模型上。

再比如,实时对话场景要求首字响应在 500ms 以内。路由层可以优先选延迟低的模型,成本退居其次。

把"质量、成本、延迟、合规"四个维度都纳入路由决策,这才是 Model Routing 的完全体。不过说实话,目前能做到四维路由的团队不多。大部分人还在解决"怎么省钱"这第一步。没关系,先把钱省下来,再慢慢迭代。


延伸阅读

  • OpenAI 模型定价页面:https://platform.openai.com/pricing
  • Burnwise 成本优化指南:https://www.burnwise.io/blog/reduce-openai-costs-guide
← 返回博客列表