博客

探索 AI 技术的前沿动态与深度洞察

前面很多人聊 Agent，重点还放在“能不能让它自己干活”。

前面很多人聊多模型，语气还像是在讨论一种“更完整的架构选择”。

Agent 多模型协同，最近几乎成了所有 Agent 落地团队绕不开的话题。

前两年大家聊多模型，很多时候还停留在一个比较抽象的层面：是不是要多接几家模型，出了问题能不能切，价格能不能压一点。

最近 Agent 的热度上来之后，一个连带变化也越来越明显：多模型这件事，开始从“技术备选项”慢慢变成“系统迟早要补的一层”。

Agent 这波真正落地之后，“多模型”越来越不像一种额外能力。

Agent 火起来之后，很多团队很快就会问一个问题：既然工作流已经开始变长，那到底要配几类模型才算合理？

一开始做 Agent 时，很多团队的直觉都差不多：先找一个强模型，把链路跑起来，后面再说。

很多团队前面做 Agent，还会把注意力放在“能不能让它自己跑起来”。

Agent 真开始落地之后，模型选型会比普通对话系统复杂很多。

Agent 进入正式业务之后，模型选型会比普通对话系统更快走到“结构问题”。

企业一旦开始正式用大模型，缓存几乎迟早都会被提上来。因为只要请求量起来，重复发送的上下文和背景内容就会慢慢变成一笔很实在的成本。

我一开始看大模型缓存，也很容易把注意力放在 prompt 本身。

缓存这件事，听起来很像一个天然正确的动作。既然模型调用贵，那把 prompt 缓起来，不就应该能把钱省下来吗？

Prompt 缓存怎么设计？很多团队第一反应都是把整段 prompt 缓起来，但真跑到业务里，命中率往往没有想象中高。