Supermemory 爆火:AI 智能体的记忆问题,真的被彻底解决了吗?
周末,一条推文在开发者圈子里引发了讨论。
Supermemory 的创始人、前 Cloudflare 工程师 Dhravya Shah 在 X 上发文称:“AI 智能体的记忆问题,可能已经被彻底解决了。”
他预测,几年内,数十亿个 AI 智能体将实现高度个性化,能够基于我们的一举一动不断学习和进化。
伴随这条推文发布的,是他的开源项目 Supermemory 的最新记忆引擎。这个项目在 GitHub 上已经狂揽超过 1.7 万颗 Star,并在多个权威记忆基准测试中刷榜。
为什么现在的 AI 记性这么差?
用过 ChatGPT 或 Claude 的人都知道,AI 的记忆力往往像金鱼。
在单次对话里,它们表现得像个无所不知的专家。但一旦开启新对话,它们就会把你忘得一干二净。
目前业界的常规解法是 RAG(检索增强生成)。简单来说,就是把你的文档或历史对话切成小块,存进向量数据库。当你提问时,系统去数据库里捞出最相关的几块,喂给 AI。
但这套机制有个明显的问题:上下文丢失。
假设你昨天告诉 AI:“我讨厌吃香菜。” 系统把这句话切块存了起来。今天你问:“我们今晚去吃墨西哥菜怎么样?” 系统可能根本捞不到“讨厌香菜”这条记录,因为它在字面上和“墨西哥菜”毫无关联。这就是所谓的语义歧义。
Supermemory 是怎么破局的?
Dhravya Shah 和他的团队认为,传统的 RAG 已经走到死胡同了。他们给出的解法是带时间戳的上下文耦合记忆。
Supermemory 的做法不同。当系统摄入信息时,它不会盲目切块。它会提取事实、建立实体之间的关联,并把这些记忆与原始数据块绑定。
它还给每一条记忆打上时间戳。如果你的偏好发生了改变(比如上个月你是素食主义者,这个月开始吃肉了),系统能处理这种时间上的矛盾,甚至会自动“遗忘”过时的信息。
在实际体验中,这意味着它能做到真正的跨会话记忆。
为了证明这不是在吹牛,团队把 Supermemory 拉到了目前最难的三个 AI 记忆基准测试(LongMemEval、LoCoMo、ConvoMem)上跑分。
结果很夸张。在 LongMemEval 相关的基准测试中,它的综合得分达到了 80% 以上(部分测试集高达 85.86%)。在“单会话用户记忆”和“单会话助手记忆”这两项指标上,得分更是飙到了 97.14% 和 96.43%(这也是 Dhravya 在推文中敢喊出“~99% SOTA”的底气)。
作为对比,目前市面上知名的记忆方案 Zep 得分是 71.2%,而传统的全上下文方案只有 60.2%。
开发者社区怎么看?
推文发出后,GitHub 和 X 上涌现了大量讨论。
一半人感到兴奋。Supermemory 提供了开箱即用的 MCP(模型上下文协议)服务器,这意味着你可以直接把它接入 Claude Code 或 OpenCode。它还原生支持接入 Google Drive、Notion、GitHub 等数据源。对于想自己动手搓一个“第二大脑”的开发者来说,这套纯 TypeScript 写的开源方案简直是及时雨。
另一半人则持怀疑态度。
AI 圈子里,“彻底解决”这个词已经被滥用太多次了。有开发者指出,基准测试跑分高,不代表在真实世界的复杂非结构化对话中也能表现完美。特别是面对长达数月的闲聊日志时,如何控制记忆库的体积和检索延迟,依然是个工程难题。
不过,Dhravya Shah 宣称他们的用户画像自动维护响应时间已经压到了 50 毫秒以内,并且在成本上远低于竞品。
我其实不太确定“彻底解决”这个词是否准确。AI 领域的突破往往伴随着新的瓶颈。跑分是一回事,真实世界的混乱数据又是另一回事。
但当一个 AI 真的能记住你写代码的习惯、你上一家公司的项目架构,甚至你昨晚吐槽过的 bug 时,它才算得上是真正的智能体。Supermemory 至少让我们离这个目标近了一大步。
参考链接:
- Dhravya Shah 的推文: https://x.com/DhravyaShah/status/2035517012647272689
- Supermemory GitHub 仓库: https://github.com/supermemoryai/supermemory
- Supermemory 研究博客: https://supermemory.ai/research