我先把话说在前面:我没法替你“站队吹/站队黑”。这类新架构最怕两件事——只看概念不看数据,以及只看榜单不看代价。下面我按“它到底想解决什么、亮点在哪、坑可能在哪、怎么判断是不是噱头”来聊,尽量用人话(主要依据论文原文与媒体解读,链接放文末)。
一句话总结:这是在给大模型加一个“可扩展的外挂记忆”,而且是“按条件触发、稀疏调用”的那种
传统大模型的“记忆”主要靠两种东西:
- 参数记忆:训练时塞进去的知识,优点是稳定,缺点是更新慢、越学越贵。
- 上下文记忆:把资料塞进 prompt(RAG/长上下文),优点是灵活,缺点是长了就贵、还容易把噪声也塞进去。
DeepSeek 这篇里说的「条件记忆 / scalable lookup」更像第三条路:
把一部分“需要随用随取的知识/经验”从上下文里搬出去,做成一个超大“记忆库”,推理时只按条件做查找(lookup),把少量最相关的记忆取回来再参与回答。
你可以把它想成:
- 模型 = 大脑
- 上下文窗口 = 你此刻的工作台
- 条件记忆 = 你随身的“笔记本 + 索引”
- Engram = 这套“记忆检索/读写/查找”能力的工程化实现(开源模块)
我觉得最值得肯定的 4 个亮点
1)把“稀疏”玩到了新的地方:不是只在注意力/专家上稀疏,而是在“记忆调用(lookup)”上稀疏
大家熟的稀疏一般是:
- 注意力稀疏(长文本更省)
- MoE(只激活少数专家更省)
这类“可扩展查表式记忆”的思路,是让模型在推理时只取少量最相关的记忆条目,从而让“记忆容量变大”不一定等价于“计算量爆炸”。(论文标题里也明确把它称为 a new axis of sparsity)
2)更像“长期记忆”,特别适合反复被问到的知识
比如:
- API/错误码/配置项(精确匹配 + 语义理解)
- 代码库里的惯例、团队规范
- 数学/逻辑里经常复用的套路
它的目标不是替代推理,而是让模型少在“查资料”上耗费上下文和算力。
3)对工程落地友好:把能力拆成模块,能单独迭代
RAG 很多时候“问题在检索/清洗/重排”,但这些往往只是外置流程。
如果 Engram 这类模块把“怎么存、怎么取、怎么用”形成更标准的接口,工程上会更容易做出可控的系统:可观测、可回滚、可更新。
4)开源的价值不在“能不能跑”,而在“能不能复现并做对比”
新架构最怕只放 PPT 不给落地。开源至少能让大家把它放到自己的数据/任务上测:到底是通用提升,还是只在特定任务上好看。
同样重要:它可能踩的坑(也是你回答里最能体现“不是营销稿”的部分)
1)“记忆污染/固化错误”
RAG 里你喂错资料顶多一次答错;
但“记忆库”如果有写入机制,错的东西可能会被反复取出来用,越用越像真相。
2)一致性与可解释性
当模型答案来自“参数 + 上下文 + 记忆库”三股来源时,出了错你要能回答:
- 到底是哪一条记忆影响了它?
- 这条记忆从哪来的?什么时候写入的?
如果做不到,线上会很难控。
3)延迟与复杂度:查表不是免费的
“可扩展”≠“没有代价”。检索、重排、读写策略、缓存、隔离、权限……这些都是工程成本。
很多团队最后不是卡在模型,而是卡在“系统做复杂了、但收益不稳定”。
4)评测可能有偏
我会特别警惕两类“看起来提升很大”的结果:
- 任务本来就很像检索题(答案几乎在库里)
- 数据/记忆条目和评测集存在“近重复”
这不是说它没价值,而是要看泛化和鲁棒性。
怎么评价它是不是“真突破”?我建议你看 6 个硬指标(也方便你在知乎上写得很稳)
如果论文/项目里能把下面这些讲清楚,我会更愿意给正面评价:
- 扩展曲线:记忆容量从小到大,效果怎么涨?算力/时延怎么涨?有没有“越大越没用”的拐点?
- 消融实验:没有记忆、随机记忆、不同检索器/不同写入策略,差距到底多大?
- 命中率与归因:取回的记忆到底有多少真被用上?能不能追溯“哪条记忆影响了答案”?
- 噪声鲁棒性:记忆里混进 10% 垃圾、冲突事实、过期信息,模型会不会被带跑偏?
- 跨任务泛化:是不是只在某几类任务提升?换域后还稳吗?
- 线上可控性:能不能做权限、隔离、TTL(过期)、审计、回滚?
如果你是工程党:我会怎么用它(不赌命的那种)
我会把它当成“RAG 的近亲”,但更像“把检索做成一等公民”。建议从小场景开始:
- 适合先试:代码助手/运维知识库/企业制度流程/产品FAQ(高频、可验证、更新快)
- 不建议一上来就做:强开放域聊天(噪声太大)、高合规场景(权限/审计没打牢)
落地时我会加三条硬约束(跟 RAG 一样好使):
- 只存可验证的事实(来源可追溯)
- 有 TTL 和版本(过期自动降权/下线)
- 提示词里写死:找不到就说找不到,别编
结尾:我的总体评价
如果它最终能证明两件事——在记忆容量变大时仍然保持“稀疏、可控、可复现”的收益,并且在噪声/冲突/过期信息下仍然稳——那我会认为这条路线很有前途。
但如果收益主要来自“把答案放进了库里再取出来”,或者工程代价远大于收益,那它更多就是把 RAG 换了个更贴近模型的包装。
你如果愿意,把你准备引用的截图/要点(比如论文里最想强调的 2-3 张图或表)丢我,我可以按上面 6 个硬指标把这篇回答再压缩得更“像高赞答主”:更短、更狠、更可核对,也更不容易被折叠。
参考(尽量少放链接,避免“外链墙”观感)
- 论文 PDF(Engram):Engram_paper.pdf(GitHub)
- 媒体解读(便于快速了解背景):百家号文章