Supermemory 爆火：AI 智能体的记忆问题，真的被彻底解决了吗？

周末，一条推文在开发者圈子里引发了讨论。

Supermemory 的创始人、前 Cloudflare 工程师 Dhravya Shah 在 X 上发文称：“AI 智能体的记忆问题，可能已经被彻底解决了。”

他预测，几年内，数十亿个 AI 智能体将实现高度个性化，能够基于我们的一举一动不断学习和进化。

伴随这条推文发布的，是他的开源项目 Supermemory 的最新记忆引擎。这个项目在 GitHub 上已经狂揽超过 1.7 万颗 Star，并在多个权威记忆基准测试中刷榜。

为什么现在的 AI 记性这么差？

用过 ChatGPT 或 Claude 的人都知道，AI 的记忆力往往像金鱼。

在单次对话里，它们表现得像个无所不知的专家。但一旦开启新对话，它们就会把你忘得一干二净。

目前业界的常规解法是 RAG（检索增强生成）。简单来说，就是把你的文档或历史对话切成小块，存进向量数据库。当你提问时，系统去数据库里捞出最相关的几块，喂给 AI。

但这套机制有个明显的问题：上下文丢失。

假设你昨天告诉 AI：“我讨厌吃香菜。” 系统把这句话切块存了起来。今天你问：“我们今晚去吃墨西哥菜怎么样？” 系统可能根本捞不到“讨厌香菜”这条记录，因为它在字面上和“墨西哥菜”毫无关联。这就是所谓的语义歧义。

Supermemory 是怎么破局的？

Dhravya Shah 和他的团队认为，传统的 RAG 已经走到死胡同了。他们给出的解法是带时间戳的上下文耦合记忆。

Supermemory 的做法不同。当系统摄入信息时，它不会盲目切块。它会提取事实、建立实体之间的关联，并把这些记忆与原始数据块绑定。

它还给每一条记忆打上时间戳。如果你的偏好发生了改变（比如上个月你是素食主义者，这个月开始吃肉了），系统能处理这种时间上的矛盾，甚至会自动“遗忘”过时的信息。

在实际体验中，这意味着它能做到真正的跨会话记忆。

为了证明这不是在吹牛，团队把 Supermemory 拉到了目前最难的三个 AI 记忆基准测试（LongMemEval、LoCoMo、ConvoMem）上跑分。

结果很夸张。在 LongMemEval 相关的基准测试中，它的综合得分达到了 80% 以上（部分测试集高达 85.86%）。在“单会话用户记忆”和“单会话助手记忆”这两项指标上，得分更是飙到了 97.14% 和 96.43%（这也是 Dhravya 在推文中敢喊出“~99% SOTA”的底气）。

作为对比，目前市面上知名的记忆方案 Zep 得分是 71.2%，而传统的全上下文方案只有 60.2%。

开发者社区怎么看？

推文发出后，GitHub 和 X 上涌现了大量讨论。

一半人感到兴奋。Supermemory 提供了开箱即用的 MCP（模型上下文协议）服务器，这意味着你可以直接把它接入 Claude Code 或 OpenCode。它还原生支持接入 Google Drive、Notion、GitHub 等数据源。对于想自己动手搓一个“第二大脑”的开发者来说，这套纯 TypeScript 写的开源方案简直是及时雨。

另一半人则持怀疑态度。

AI 圈子里，“彻底解决”这个词已经被滥用太多次了。有开发者指出，基准测试跑分高，不代表在真实世界的复杂非结构化对话中也能表现完美。特别是面对长达数月的闲聊日志时，如何控制记忆库的体积和检索延迟，依然是个工程难题。

不过，Dhravya Shah 宣称他们的用户画像自动维护响应时间已经压到了 50 毫秒以内，并且在成本上远低于竞品。

我其实不太确定“彻底解决”这个词是否准确。AI 领域的突破往往伴随着新的瓶颈。跑分是一回事，真实世界的混乱数据又是另一回事。

但当一个 AI 真的能记住你写代码的习惯、你上一家公司的项目架构，甚至你昨晚吐槽过的 bug 时，它才算得上是真正的智能体。Supermemory 至少让我们离这个目标近了一大步。

参考链接：

Dhravya Shah 的推文: https://x.com/DhravyaShah/status/2035517012647272689
Supermemory GitHub 仓库: https://github.com/supermemoryai/supermemory
Supermemory 研究博客: https://supermemory.ai/research