Model Routing：不是所有请求都值得用 GPT-5

你的 AI 客服每天处理一万条消息。其中大概六千条是"我的订单到哪了""怎么退货""营业时间是几点"。剩下四千条才涉及退款协商、投诉升级、多轮推理这类需要强模型的场景。

如果所有请求都打给 GPT-5.2（$1.75/$14.00 每百万 Token），月账单大约 4200 美元。但如果把那六千条简单请求路由给 GPT-5-mini（$0.30/$1.00），只把复杂请求交给大模型，月账单能降到 1800 美元左右。省了 57%。

这就是 Model Routing 的基本逻辑：不是选一个模型用到底，而是根据请求的复杂度动态分配模型。

路由怎么判断"简单还是复杂"

方法有好几种，从粗到细。

关键词规则。最土但最可控。写一批正则：匹配到"订单号""物流""营业时间"的走小模型，匹配到"投诉""赔偿""法律"的走大模型。好处是延迟为零，坏处是维护成本高，漏网的多。

分类器。训练一个小模型（甚至用 logistic regression 就行）对请求做二分类或多分类。输入是用户消息的 embedding，输出是"简单/中等/复杂"。这是目前生产环境里最常见的做法，准确率能到 85-90%。

LLM 自评。让一个便宜的模型先判断难度，再决定用谁回答。比如先发给 GPT-5-mini："这个问题需要深度推理吗？回答 yes 或 no。"这个方法灵活，但多了一跳，延迟会增加 200-500ms。

历史统计。根据用户画像、会话轮次、历史满意度来路由。新用户第一轮给大模型（第一印象很重要），老用户的常规咨询给小模型。这个需要数据积累，冷启动阶段用不了。

实际做的时候，通常是混合使用：关键词规则做第一层快筛，分类器做主路由，边缘情况兜底给大模型。

路由不只是选模型，还有 fallback

路由的另一个作用是容错。如果首选模型超时或报错，自动切换到备选模型，用户无感。

一个常见的 fallback 链：

GPT-5.2 → Claude 4 Sonnet → GPT-5-mini → 兜底话术

看起来简单，但有两个坑。

第一个坑是输出格式不一致。GPT 和 Claude 对 JSON 输出的处理方式有细微差别。如果你的下游代码严格解析 JSON，切换模型后可能解析失败。解决办法是在网关层做一次输出标准化，或者用 Structured Output 功能约束格式。

第二个坑是Token 计算差异。OpenAI 和 Anthropic 的 tokenizer 不一样。同一段文本，GPT 算 500 Token，Claude 可能算 480。如果你的限流和计费逻辑依赖 Token 数，切换模型后数字对不上。要么用统一的 tokenizer 估算，要么按模型分别计算。

路由抖动：一个容易被忽略的问题

我们在生产中遇到过一个微妙的 Bug：同一个用户的连续请求被路由到不同模型，导致回复风格突变。

用户前一秒收到 Claude 的回复（偏严谨、长句居多），下一秒切到了 GPT-mini（偏简洁、口语化）。用户不知道背后有路由，只觉得"这个 AI 怎么突然变了个人"。

解决办法是加会话亲和性：同一个会话 ID 在整个对话过程中绑定同一个模型（除非该模型不可用）。技术上不难，在路由层维护一个 session → model 的映射表就行。但一开始没想到，上线后被用户投诉才发现。

灰度和观测

路由策略不能拍脑袋定完就上线。建议用灰度方式逐步推进：

先在 5% 的流量上测试路由策略，对比路由组和全量大模型组的用户满意度、任务完成率。
如果路由组的满意度下降不超过 2%，逐步放量到 20%、50%、100%。
持续监控每个模型的响应质量。一旦小模型在某类请求上表现明显变差，缩小它的路由范围。

监控指标要同时看成本和质量。只看省了多少钱不够，还得看用户体验有没有劣化。最好的状态是：用户完全感知不到你在背后做了路由，但你的账单少了一半。

不同场景的路由比例参考

| 场景 | 大模型占比 | 小模型占比 | 预期节省 | |------|-----------|-----------|---------| | 客服问答 | 30-40% | 60-70% | 40-55% | | 内容生成（营销文案） | 70-80% | 20-30% | 15-25% | | 代码补全 | 20-30% | 70-80% | 50-60% | | 数据提取/格式化 | 10-20% | 80-90% | 60-70% | | 多轮推理/分析 | 80-90% | 10-20% | 8-15% |

规律很直观：越是需要创造力和推理能力的任务，大模型占比越高；越是模板化、结构化的任务，小模型越能胜任。

路由的下一步：不止是省钱

2026 年我观察到一个趋势：路由不再只为省钱，也开始为合规和延迟服务。

比如，某些数据不能发到海外服务器。路由层可以根据请求中的敏感字段，自动把这类请求分到国产模型或私有部署的模型上。

再比如，实时对话场景要求首字响应在 500ms 以内。路由层可以优先选延迟低的模型，成本退居其次。

把"质量、成本、延迟、合规"四个维度都纳入路由决策，这才是 Model Routing 的完全体。不过说实话，目前能做到四维路由的团队不多。大部分人还在解决"怎么省钱"这第一步。没关系，先把钱省下来，再慢慢迭代。

延伸阅读

OpenAI 模型定价页面：https://platform.openai.com/pricing
Burnwise 成本优化指南：https://www.burnwise.io/blog/reduce-openai-costs-guide