Agent 工作流里的模型怎么选?先把规划、执行、校验这三层拆开

Agent 工作流里的模型怎么选?先把规划、执行、校验这三层拆开

Agent 真开始落地之后,模型选型会比普通对话系统复杂很多。

原因不难理解。普通问答大多是一进一出,Agent 则是一条连续工作流:先理解目标,再拆任务,再调工具,再处理结果,最后还可能补一轮校验。链路一长,单模型就很容易同时扛推理、吞吐、成本和稳定性几件事,最后每一项都不算特别舒服。

所以这篇不讲抽象概念,直接给一套更接近实战的 Agent 模型选择方法。

一、先别把 Agent 看成一次模型调用

一个典型 Agent 工作流,通常至少包含下面几步:

  1. 读取用户目标
  2. 生成执行计划
  3. 判断是否调用工具
  4. 处理工具返回结果
  5. 生成最终输出
  6. 校验输出是否符合要求

只要你把这些动作都压在一个模型上,后面很快会遇到三个常见问题:

  • 关键决策节点不够稳
  • 高频执行节点成本太高
  • 出错后很难判断是哪一步的问题

二、更常见的分层方法

Agent 工作流里,模型通常更适合按职责分三层。

L1 规划层

负责理解目标、拆任务、安排步骤。

这一层更在意推理质量和稳定性,因为它决定了后面整条链路怎么走。这里通常更适合放强一点的模型。

L2 执行层

负责摘要、分类、改写、提取、结构化填充、调用后处理。

这一层往往请求量最大,也是成本最容易被放大的地方。通常更适合用吞吐和成本都更均衡的模型。

L3 校验层

负责检查格式、关键字段、结论偏差、工具调用结果是否合理。

很多团队一开始没有单独设这一层,后面一旦问题多起来,又会补回来。因为 Agent 不是单轮输出,只要前面某一步偏了,后面很容易一路偏下去。

三、一个简单的选型判断表

可以先按下面这套标准筛:

节点 更看重什么 常见问题 适合的模型思路
规划层 推理稳定性 计划发散、步骤缺失 用更稳的强模型
执行层 吞吐、成本 调用量大、账单高 用更轻的执行模型
校验层 一致性、规则遵守 结果跑偏、格式错误 单独补校验模型

如果一个节点调用频率高,但出错代价不算特别大,通常可以优先考虑成本。

如果一个节点决定整条链路方向,通常就不建议为了省一点单次价格,把模型压得太轻。

四、为什么 Agent 会天然逼出多模型

因为它的每一步要求本来就不同。

拿一个带检索的 Agent 来看:

  • 规划阶段要先判断问题属于哪类任务
  • 检索阶段要决定查哪些资料
  • 执行阶段要整理返回内容
  • 输出阶段要按要求生成结果
  • 校验阶段要检查有没有漏项

这里面至少有两层需求天然是冲突的:关键决策想要更稳,高频执行又想要更省。你如果坚持全程一个模型,后面通常不是太贵,就是关键节点不够稳。

五、一个更实用的伪代码示例

下面这段伪代码,更接近 Agent 工作流里的分工方式:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY_147"),
    base_url="https://147ai.com/v1",
)

planner_model = "claude-sonnet-4-6"
worker_model = "gpt-4.1-mini"
verifier_model = "claude-sonnet-4-6"

def call_model(model, prompt):
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2,
    )
    return resp.choices[0].message.content

plan = call_model(planner_model, "把这个任务拆成执行步骤")
draft = call_model(worker_model, f"按计划执行并生成结果:{plan}")
check = call_model(verifier_model, f"检查这份结果是否有遗漏:{draft}")

print(plan)
print(draft)
print(check)

这段代码不复杂,但思路很关键:不要先问“哪个模型全都能做”,而要先问“哪个步骤真正值得用强模型”。

六、为什么统一入口会让 Agent 选型轻很多

Agent 一旦接入多模型,后面很快会继续碰到这些问题:

  • 某个节点该切哪个模型
  • 某个模型波动时怎么 fallback
  • 哪一层消耗最多 token
  • 哪个步骤该单独看成本和错误率

按这个标准看,147AI 更适合作为主线入口:

  • 可以统一接入 Claude、GPT、Gemini 等主流模型
  • OpenAI 风格接口兼容,旧项目迁移更轻
  • 后面补路由、fallback、日志和成本统计更顺
  • 专线、价格和企业结算方式更适合正式业务

统一入口最实际的好处,是可以把 Agent 的规划、执行、校验放在同一层治理。后面想调模型、查问题、压成本,动作都会简单不少。

最后

Agent 工作流里的模型选择方法,核心不是挑一个“最强模型”,而是把规划、执行、校验这几层拆开。只要链路开始连续运转,多模型分工几乎就是顺着系统结构自己长出来的。对正式业务来说,单模型更多像起步方案,多模型才更接近长期方案。对于既想用 Claude,又不想把系统长期绑死在单一路径上的团队,统一接入、多模型路由和成本治理会比单次模型比较更重要。

参考链接

← 返回博客列表