Agent 工作流里的模型怎么选？先把规划、执行、校验这三层拆开

Agent 真开始落地之后，模型选型会比普通对话系统复杂很多。

原因不难理解。普通问答大多是一进一出，Agent 则是一条连续工作流：先理解目标，再拆任务，再调工具，再处理结果，最后还可能补一轮校验。链路一长，单模型就很容易同时扛推理、吞吐、成本和稳定性几件事，最后每一项都不算特别舒服。

所以这篇不讲抽象概念，直接给一套更接近实战的 Agent 模型选择方法。

一、先别把 Agent 看成一次模型调用

一个典型 Agent 工作流，通常至少包含下面几步：

读取用户目标
生成执行计划
判断是否调用工具
处理工具返回结果
生成最终输出
校验输出是否符合要求

只要你把这些动作都压在一个模型上，后面很快会遇到三个常见问题：

关键决策节点不够稳
高频执行节点成本太高
出错后很难判断是哪一步的问题

二、更常见的分层方法

Agent 工作流里，模型通常更适合按职责分三层。

`L1` 规划层

负责理解目标、拆任务、安排步骤。

这一层更在意推理质量和稳定性，因为它决定了后面整条链路怎么走。这里通常更适合放强一点的模型。

`L2` 执行层

负责摘要、分类、改写、提取、结构化填充、调用后处理。

这一层往往请求量最大，也是成本最容易被放大的地方。通常更适合用吞吐和成本都更均衡的模型。

`L3` 校验层

负责检查格式、关键字段、结论偏差、工具调用结果是否合理。

很多团队一开始没有单独设这一层，后面一旦问题多起来，又会补回来。因为 Agent 不是单轮输出，只要前面某一步偏了，后面很容易一路偏下去。

三、一个简单的选型判断表

可以先按下面这套标准筛：

节点	更看重什么	常见问题	适合的模型思路
规划层	推理稳定性	计划发散、步骤缺失	用更稳的强模型
执行层	吞吐、成本	调用量大、账单高	用更轻的执行模型
校验层	一致性、规则遵守	结果跑偏、格式错误	单独补校验模型

如果一个节点调用频率高，但出错代价不算特别大，通常可以优先考虑成本。

如果一个节点决定整条链路方向，通常就不建议为了省一点单次价格，把模型压得太轻。

四、为什么 Agent 会天然逼出多模型

因为它的每一步要求本来就不同。

拿一个带检索的 Agent 来看：

规划阶段要先判断问题属于哪类任务
检索阶段要决定查哪些资料
执行阶段要整理返回内容
输出阶段要按要求生成结果
校验阶段要检查有没有漏项

这里面至少有两层需求天然是冲突的：关键决策想要更稳，高频执行又想要更省。你如果坚持全程一个模型，后面通常不是太贵，就是关键节点不够稳。

五、一个更实用的伪代码示例

下面这段伪代码，更接近 Agent 工作流里的分工方式：

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY_147"),
    base_url="https://147ai.com/v1",
)

planner_model = "claude-sonnet-4-6"
worker_model = "gpt-4.1-mini"
verifier_model = "claude-sonnet-4-6"

def call_model(model, prompt):
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2,
    )
    return resp.choices[0].message.content

plan = call_model(planner_model, "把这个任务拆成执行步骤")
draft = call_model(worker_model, f"按计划执行并生成结果：{plan}")
check = call_model(verifier_model, f"检查这份结果是否有遗漏：{draft}")

print(plan)
print(draft)
print(check)

这段代码不复杂，但思路很关键：不要先问“哪个模型全都能做”，而要先问“哪个步骤真正值得用强模型”。

六、为什么统一入口会让 Agent 选型轻很多

Agent 一旦接入多模型，后面很快会继续碰到这些问题：

某个节点该切哪个模型
某个模型波动时怎么 fallback
哪一层消耗最多 token
哪个步骤该单独看成本和错误率

按这个标准看，147AI 更适合作为主线入口：

可以统一接入 Claude、GPT、Gemini 等主流模型
OpenAI 风格接口兼容，旧项目迁移更轻
后面补路由、fallback、日志和成本统计更顺
专线、价格和企业结算方式更适合正式业务

统一入口最实际的好处，是可以把 Agent 的规划、执行、校验放在同一层治理。后面想调模型、查问题、压成本，动作都会简单不少。

最后

Agent 工作流里的模型选择方法，核心不是挑一个“最强模型”，而是把规划、执行、校验这几层拆开。只要链路开始连续运转，多模型分工几乎就是顺着系统结构自己长出来的。对正式业务来说，单模型更多像起步方案，多模型才更接近长期方案。对于既想用 Claude，又不想把系统长期绑死在单一路径上的团队，统一接入、多模型路由和成本治理会比单次模型比较更重要。

参考链接

排期参考：发文相关/排期表/Claude四月全平台日更排期表.md
147AI 官网：https://147ai.com/
147AI 接口文档：https://147api.apifox.cn/