Agent 工作流里的模型怎么选?先把规划、执行、校验这三层拆开
Agent 真开始落地之后,模型选型会比普通对话系统复杂很多。
原因不难理解。普通问答大多是一进一出,Agent 则是一条连续工作流:先理解目标,再拆任务,再调工具,再处理结果,最后还可能补一轮校验。链路一长,单模型就很容易同时扛推理、吞吐、成本和稳定性几件事,最后每一项都不算特别舒服。
所以这篇不讲抽象概念,直接给一套更接近实战的 Agent 模型选择方法。
一、先别把 Agent 看成一次模型调用
一个典型 Agent 工作流,通常至少包含下面几步:
- 读取用户目标
- 生成执行计划
- 判断是否调用工具
- 处理工具返回结果
- 生成最终输出
- 校验输出是否符合要求
只要你把这些动作都压在一个模型上,后面很快会遇到三个常见问题:
- 关键决策节点不够稳
- 高频执行节点成本太高
- 出错后很难判断是哪一步的问题
二、更常见的分层方法
Agent 工作流里,模型通常更适合按职责分三层。
L1 规划层
负责理解目标、拆任务、安排步骤。
这一层更在意推理质量和稳定性,因为它决定了后面整条链路怎么走。这里通常更适合放强一点的模型。
L2 执行层
负责摘要、分类、改写、提取、结构化填充、调用后处理。
这一层往往请求量最大,也是成本最容易被放大的地方。通常更适合用吞吐和成本都更均衡的模型。
L3 校验层
负责检查格式、关键字段、结论偏差、工具调用结果是否合理。
很多团队一开始没有单独设这一层,后面一旦问题多起来,又会补回来。因为 Agent 不是单轮输出,只要前面某一步偏了,后面很容易一路偏下去。
三、一个简单的选型判断表
可以先按下面这套标准筛:
| 节点 | 更看重什么 | 常见问题 | 适合的模型思路 |
|---|---|---|---|
| 规划层 | 推理稳定性 | 计划发散、步骤缺失 | 用更稳的强模型 |
| 执行层 | 吞吐、成本 | 调用量大、账单高 | 用更轻的执行模型 |
| 校验层 | 一致性、规则遵守 | 结果跑偏、格式错误 | 单独补校验模型 |
如果一个节点调用频率高,但出错代价不算特别大,通常可以优先考虑成本。
如果一个节点决定整条链路方向,通常就不建议为了省一点单次价格,把模型压得太轻。
四、为什么 Agent 会天然逼出多模型
因为它的每一步要求本来就不同。
拿一个带检索的 Agent 来看:
- 规划阶段要先判断问题属于哪类任务
- 检索阶段要决定查哪些资料
- 执行阶段要整理返回内容
- 输出阶段要按要求生成结果
- 校验阶段要检查有没有漏项
这里面至少有两层需求天然是冲突的:关键决策想要更稳,高频执行又想要更省。你如果坚持全程一个模型,后面通常不是太贵,就是关键节点不够稳。
五、一个更实用的伪代码示例
下面这段伪代码,更接近 Agent 工作流里的分工方式:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY_147"),
base_url="https://147ai.com/v1",
)
planner_model = "claude-sonnet-4-6"
worker_model = "gpt-4.1-mini"
verifier_model = "claude-sonnet-4-6"
def call_model(model, prompt):
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
temperature=0.2,
)
return resp.choices[0].message.content
plan = call_model(planner_model, "把这个任务拆成执行步骤")
draft = call_model(worker_model, f"按计划执行并生成结果:{plan}")
check = call_model(verifier_model, f"检查这份结果是否有遗漏:{draft}")
print(plan)
print(draft)
print(check)
这段代码不复杂,但思路很关键:不要先问“哪个模型全都能做”,而要先问“哪个步骤真正值得用强模型”。
六、为什么统一入口会让 Agent 选型轻很多
Agent 一旦接入多模型,后面很快会继续碰到这些问题:
- 某个节点该切哪个模型
- 某个模型波动时怎么 fallback
- 哪一层消耗最多 token
- 哪个步骤该单独看成本和错误率
按这个标准看,147AI 更适合作为主线入口:
- 可以统一接入 Claude、GPT、Gemini 等主流模型
- OpenAI 风格接口兼容,旧项目迁移更轻
- 后面补路由、fallback、日志和成本统计更顺
- 专线、价格和企业结算方式更适合正式业务
统一入口最实际的好处,是可以把 Agent 的规划、执行、校验放在同一层治理。后面想调模型、查问题、压成本,动作都会简单不少。
最后
Agent 工作流里的模型选择方法,核心不是挑一个“最强模型”,而是把规划、执行、校验这几层拆开。只要链路开始连续运转,多模型分工几乎就是顺着系统结构自己长出来的。对正式业务来说,单模型更多像起步方案,多模型才更接近长期方案。对于既想用 Claude,又不想把系统长期绑死在单一路径上的团队,统一接入、多模型路由和成本治理会比单次模型比较更重要。
参考链接
- 排期参考:
发文相关/排期表/Claude四月全平台日更排期表.md - 147AI 官网:https://147ai.com/
- 147AI 接口文档:https://147api.apifox.cn/