Supermemory 爆火:AI 智能体的记忆问题,真的被彻底解决了吗?

Supermemory 爆火:AI 智能体的记忆问题,真的被彻底解决了吗?

周末,一条推文在开发者圈子里引发了讨论。

Supermemory 的创始人、前 Cloudflare 工程师 Dhravya Shah 在 X 上发文称:“AI 智能体的记忆问题,可能已经被彻底解决了。”

他预测,几年内,数十亿个 AI 智能体将实现高度个性化,能够基于我们的一举一动不断学习和进化。

伴随这条推文发布的,是他的开源项目 Supermemory 的最新记忆引擎。这个项目在 GitHub 上已经狂揽超过 1.7 万颗 Star,并在多个权威记忆基准测试中刷榜。

为什么现在的 AI 记性这么差?

用过 ChatGPT 或 Claude 的人都知道,AI 的记忆力往往像金鱼。

在单次对话里,它们表现得像个无所不知的专家。但一旦开启新对话,它们就会把你忘得一干二净。

目前业界的常规解法是 RAG(检索增强生成)。简单来说,就是把你的文档或历史对话切成小块,存进向量数据库。当你提问时,系统去数据库里捞出最相关的几块,喂给 AI。

但这套机制有个明显的问题:上下文丢失。

假设你昨天告诉 AI:“我讨厌吃香菜。” 系统把这句话切块存了起来。今天你问:“我们今晚去吃墨西哥菜怎么样?” 系统可能根本捞不到“讨厌香菜”这条记录,因为它在字面上和“墨西哥菜”毫无关联。这就是所谓的语义歧义。

Supermemory 是怎么破局的?

Dhravya Shah 和他的团队认为,传统的 RAG 已经走到死胡同了。他们给出的解法是带时间戳的上下文耦合记忆。

Supermemory 的做法不同。当系统摄入信息时,它不会盲目切块。它会提取事实、建立实体之间的关联,并把这些记忆与原始数据块绑定。

它还给每一条记忆打上时间戳。如果你的偏好发生了改变(比如上个月你是素食主义者,这个月开始吃肉了),系统能处理这种时间上的矛盾,甚至会自动“遗忘”过时的信息。

在实际体验中,这意味着它能做到真正的跨会话记忆。

为了证明这不是在吹牛,团队把 Supermemory 拉到了目前最难的三个 AI 记忆基准测试(LongMemEval、LoCoMo、ConvoMem)上跑分。

结果很夸张。在 LongMemEval 相关的基准测试中,它的综合得分达到了 80% 以上(部分测试集高达 85.86%)。在“单会话用户记忆”和“单会话助手记忆”这两项指标上,得分更是飙到了 97.14% 和 96.43%(这也是 Dhravya 在推文中敢喊出“~99% SOTA”的底气)。

作为对比,目前市面上知名的记忆方案 Zep 得分是 71.2%,而传统的全上下文方案只有 60.2%。

开发者社区怎么看?

推文发出后,GitHub 和 X 上涌现了大量讨论。

一半人感到兴奋。Supermemory 提供了开箱即用的 MCP(模型上下文协议)服务器,这意味着你可以直接把它接入 Claude Code 或 OpenCode。它还原生支持接入 Google Drive、Notion、GitHub 等数据源。对于想自己动手搓一个“第二大脑”的开发者来说,这套纯 TypeScript 写的开源方案简直是及时雨。

另一半人则持怀疑态度。

AI 圈子里,“彻底解决”这个词已经被滥用太多次了。有开发者指出,基准测试跑分高,不代表在真实世界的复杂非结构化对话中也能表现完美。特别是面对长达数月的闲聊日志时,如何控制记忆库的体积和检索延迟,依然是个工程难题。

不过,Dhravya Shah 宣称他们的用户画像自动维护响应时间已经压到了 50 毫秒以内,并且在成本上远低于竞品。

我其实不太确定“彻底解决”这个词是否准确。AI 领域的突破往往伴随着新的瓶颈。跑分是一回事,真实世界的混乱数据又是另一回事。

但当一个 AI 真的能记住你写代码的习惯、你上一家公司的项目架构,甚至你昨晚吐槽过的 bug 时,它才算得上是真正的智能体。Supermemory 至少让我们离这个目标近了一大步。


参考链接:

  1. Dhravya Shah 的推文: https://x.com/DhravyaShah/status/2035517012647272689
  2. Supermemory GitHub 仓库: https://github.com/supermemoryai/supermemory
  3. Supermemory 研究博客: https://supermemory.ai/research
← 返回博客列表