博客

探索 AI 技术的前沿动态与深度洞察

很多团队一开始做缓存，直觉都很像：既然大模型调用贵，那就把 prompt 缓起来，能省一点是一点。

过去大家聊大模型缓存，更多会把它当成一个优化技巧。能省一点 token，能少发一点内容，看起来就已经有价值了。

很多团队一提缓存，第一反应还是 Prompt 缓存。这个方向没问题，但如果系统已经进入真实业务，直接围着整段 prompt 打转，往往不够稳定。

一开始做 Prompt 缓存时，很多人的直觉都很像：哪一段最像“用户输入”，就优先缓存哪一段。

很多团队一提到长上下文，第一反应都是模型能不能扛住、窗口够不够大、一次能塞多少内容。

很多团队一说缓存，第一反应就是 prompt。可系统真跑起来之后，很多账单问题并不是出在用户那句话，而是出在前面那一大段背景。

很多团队开始做 Prompt 缓存时，第一反应都是把整段输入缓存起来。这当然能做，但如果系统已经进入正式业务，直接缓存整段 prompt 往往不会是效果最稳的方案。

很多系统一开始做 Prompt 缓存，出发点都很直接：希望少发一些重复内容，把调用成本压下来。

ChatGPT Images 2.0（GPT Image-2）发布不到 24 小时，我的信息流已经被各种生成的图片刷屏了。

我半夜刷着 X（原推特），看这帮大佬放出的测试图，感觉这行真是不给人喘息的机会。

企业一旦开始正式用大模型，成本问题通常很快就会出现。前期最容易看到的是模型报价，后面真正开始影响预算的，往往却不是单价本身，而是调用结构。

以前我看 AI 成本，也会很自然地先去看价格表。哪个模型更便宜，哪个平台报价更低，似乎只要这一步清楚了，后面的预算也就大差不差。

很多人一提到 AI 成本，第一反应就是价格表。哪个模型便宜，哪个平台报价低，似乎只要这一步看清楚了，后面的账也就差不多了。

AI 成本治理怎么做？如果只把注意力放在模型单价上，很多时候会越看越迷糊。因为业务真正跑起来后，预算变重的原因，往往不只是某个模型更贵，而是调用链本身放大了成本。

很多团队刚开始看 AI 成本，第一反应都是单价。哪个模型便宜一点，哪个平台每百万 token 少一点，往往很容易成为讨论中心。