博客
探索 AI 技术的前沿动态与深度洞察
很多团队一开始做缓存,直觉都很像:既然大模型调用贵,那就把 prompt 缓起来,能省一点是一点。
过去大家聊大模型缓存,更多会把它当成一个优化技巧。能省一点 token,能少发一点内容,看起来就已经有价值了。
很多团队一提缓存,第一反应还是 Prompt 缓存。这个方向没问题,但如果系统已经进入真实业务,直接围着整段 prompt 打转,往往不够稳定。
一开始做 Prompt 缓存时,很多人的直觉都很像:哪一段最像“用户输入”,就优先缓存哪一段。
很多团队一提到长上下文,第一反应都是模型能不能扛住、窗口够不够大、一次能塞多少内容。
很多团队一说缓存,第一反应就是 prompt。可系统真跑起来之后,很多账单问题并不是出在用户那句话,而是出在前面那一大段背景。
很多团队开始做 Prompt 缓存时,第一反应都是把整段输入缓存起来。这当然能做,但如果系统已经进入正式业务,直接缓存整段 prompt 往往不会是效果最稳的方案。
很多系统一开始做 Prompt 缓存,出发点都很直接:希望少发一些重复内容,把调用成本压下来。
ChatGPT Images 2.0(GPT Image-2)发布不到 24 小时,我的信息流已经被各种生成的图片刷屏了。
我半夜刷着 X(原推特),看这帮大佬放出的测试图,感觉这行真是不给人喘息的机会。
企业一旦开始正式用大模型,成本问题通常很快就会出现。前期最容易看到的是模型报价,后面真正开始影响预算的,往往却不是单价本身,而是调用结构。
以前我看 AI 成本,也会很自然地先去看价格表。哪个模型更便宜,哪个平台报价更低,似乎只要这一步清楚了,后面的预算也就大差不差。
很多人一提到 AI 成本,第一反应就是价格表。哪个模型便宜,哪个平台报价低,似乎只要这一步看清楚了,后面的账也就差不多了。
AI 成本治理怎么做?如果只把注意力放在模型单价上,很多时候会越看越迷糊。因为业务真正跑起来后,预算变重的原因,往往不只是某个模型更贵,而是调用链本身放大了成本。
很多团队刚开始看 AI 成本,第一反应都是单价。哪个模型便宜一点,哪个平台每百万 token 少一点,往往很容易成为讨论中心。