一夜之间,AI终获「永久记忆」!最难考试99%刷爆SOTA,全网直呼疯狂

  新智元报道

  编辑:桃子好困

  AI 终于有了「永久记忆」!今天,超级记忆系统 ASMR 重磅登场,在业界公认最难 AI 记忆考试中,刷爆 SOTA 拿下 99% 成绩。全网直呼太疯狂。

  AI 记忆难题,已彻底被解决?

  今天,一个 Supermemory 团队爆火出圈,向全世界扔出了一颗核弹——

  超级记忆系统「ASMR」问世,把 AI 记忆界最难考试 LongMemEval,刷到了 99% 准确率。

  全球数十亿 Agent 都需要记忆,而如今,AI「健忘症」几乎被攻克了。

  是的,你没有听错!

  ASMR 以近乎无敌的姿态刷爆 SOTA,一时间登上了今天X的热榜。

  它抛弃了传统的「向量数据库」,抛弃了嵌入(embedding)模式,完全在内存中运行。

  这一次,ASMR 全程采用「多 Agent 并行推理」的流水线,具体分工如下:

  3 个「观察者 Agent」并行读取原始数据,提取个人信息、偏好、时间线等六大维度信息;

  当用户提问时,再派出 3 个「搜索 Agent」进行主动推理检索。

  如今,全网被「太疯狂了」刷屏了。

  值得一提的是,ASMR 将于 4 月初开源全部代码,AI 记忆的「大航海时代」正式开启!

  一夜之间,AI 有了「永久记忆」

  首先,还是要 mark 下这篇博客第一句话——

  AI Agent 的记忆问题现在可能已经完全解决了。

  几个月前,Supermemory 祭出首份研究报告,便在 LongMemEval-s 测试中拿下了 85% 的成绩。

  这一分数,早就领先于当时所有公开的记忆系统。

  而今天,超级记忆系统「ASMR」(智能体搜索与记忆检索)的出世,再一次刷新了纪录。

  它的技术实现,非常简单。

  不需要向量数据库、嵌入(embeddings),直接完全在内存中运行。

  这意味着,它可以被内嵌到其他系统中,甚至是机器人等硬件中。

  那么,ASMR 具体是如何被打造出来的?

  ASMR:多 Agent 并行干活

  要知道,LongMemEval 是目前公开可见的、最严苛的长期记忆基准测试之一。

  很多基准测试只考量短上下文中的简单检索,但 LongMemEval 不同,它旨在模拟真实生产环境中的各种混乱情况:

  在超 11.5 万智元(Token)的对话历史、相互矛盾的信息、跨越多个会话的零散事件,还需进行时间推理的复杂问题。

  大多数记忆系统表现不佳,问题往往出在「检索」上,而不是推理上。

  即便召回率很高,如果检索过程中伴随着大量噪音,LLM 同样很难利用这些信息。

  首要难题在于,如何只将正确的信息放入上下文窗口;更困难的是——如何判断检索到的事实已经过时,并已经被更新的版本所取代。

  不仅如此,标准的向量搜索在多数情况下都很好用。

  但在处理信息密度高、跨越多会话的时序数据细节时,它就力不从心了。语义相似度匹配无法可靠地区分某个事实是「旧信息」还是「新修正」。

  为了应对 LongMemEval 的复杂性,必须从头开始重新构思信息摄取与检索管道,用主动的 Agent 推理来取代向量数学计算。

  由此,团队跳出了传统 RAG 框架,构建了一个「多 Agent 协同编排」的管道。

  3+3 Agent,各有分工

  就像 ASMR 一样,这项技术简单直白,且让人极度舒适。

  观察者 Agent:并行摄取

  首先,部署一个由 3 个并行读取器——观察者 Agent,组成的智能体编排器。

  它们背后由 Gemini 2.0 Flash 加持,不用针对用户对话进行分块和嵌入就能执行任务。

  这些 Agent 会并发地阅读原始会话,比如,Agent 1 负责会话 1、3、5;Agent 2 负责 2、4、6。

  观察者 Agent 目标是围绕「六个维度」进行定向的知识提取:个人信息、偏好、事件、时序数据、信息更新、助手信息。

  然后,这些结构化的发现会被「原生存储」,并映射回它们的源会话中。

  搜索 Agent:主动检索

  当接收到问题时,ASMR 不会去查询向量数据库。

  通过部署的 3 个并行的「搜索 Agent」,这些 AI 会主动阅读并推理已存储的发现,每个 Agent 都有专属的侧重点:

  Agent 1:搜索直接事实和明确陈述;

  Agent 2:寻找相关的上下文、社交线索和暗示;

  Agent 3:重建时间线和关系图谱。

  编排器会汇总所有三个「搜索 Agent」的发现,并提取原文会话的逐字片段来进行细节验证。

  这种机制使得系统能够基于真实的认知理解来进行智能检索,而不仅仅是依赖关键词或数学上的相似度。

  一旦上下文整合完成,单一的提示词无法应对 LongMemEval 中种类繁多的问题。

  有些问题需要推断细节,而有些则要求给出极其具体的答案。

  接下来,Supermemory 尝试了两种截然不同的 AI Agent 回答工作流。

  8 变体集群(98.6% 准确率)

  将检索到的上下文路由给并行运行的 8 个高度专业化的提示词变体。

  比如,精准计数器、时间专家、Context Deep Dive 等,每个变体都会独立评估上下文并生成答案。

  如果这 8 条截然不同的推理路径中,有任何一条成功得出了正确答案(Ground Truth),该问题就会被标记为正确。

  这种并行的多重判断方法,让 ASMR 达到了惊人的 98.60% 整体准确率,完美覆盖了盲区。

  12 变体决策森林(97.2% 准确率)

  为了测试一个旨在产出单一、权威答案,而依赖多次独立尝试的系统,团队又将 ASMR 扩展为了一个包含 12 个变体的决策森林。

  在这里,12 个高度专业化的 AI Agent(由 GPT-4o-mini 驱动)独立回答提示词。

  并且, 还引入了一个「聚合大模型」作为最终的裁判。

  聚合器通过多数投票、领域信任度和冲突解决机制来综合这 12 个答案。

  这种单一的共识模型,同样取得了高达 97.2% 的惊人准确率。

  需要说明的是,ASMR 目前还没有用在 Supermemory 的核心生产环境中。

  这次实验不仅刷新了数据,更验证了几个关键观点:

  • Agent 检索优于向量搜索:主动搜索消除了语义相似度陷阱,解决了时序变化导致的信息失效问题。

  • 并行处理是效率核心:将负载分配给多个专用 Agent,显著提升了提取的速度与颗粒度。

  • 专业化分工胜过通用模型:专用专家(如细节提取器)的表现远超单一的全能提示词。

  Supermemory 才是真正的野心

  但如果你以为 ASMR 只是一个刷榜实验,那就太小看这个团队了。

  ASMR 背后,是一个叫 Supermemory 的完整记忆引擎——一套面向所有 AI 应用的记忆与上下文基础设施。

  Your AI forgets everything between conversations. Supermemory fixes that.

  你的 AI 在对话之间什么都记不住,Supermemory 来修。

  GitHub 地址:https://github.com/supermemoryai/supermemory

  记忆≠RAG,这是两件事

  前面说的 ASMR,解决的是「怎么从海量对话里精准找到正确信息」。

  但 Supermemory 要解决的问题更大:让 AI 真正拥有记忆,而不只是检索。

  区别在于,RAG 不认人,今天给张三返回的结果和明天给李四的一模一样;而 Supermemory 会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。

  举个例子,你上个月跟 AI 说「我住在北京」,这个月又说「我刚搬到上海」。RAG 会把两条信息都丢给大模型,让它自己猜。Supermemory 知道后者覆盖了前者,只返回「上海」。

  更狠的是「自动遗忘」机制。你说「我明天有个考试」,等日期过了,这条记忆自动失效。临时事实不会变成永久噪音。

  Supermemory 默认把 RAG 和记忆合并在同一次查询里跑,知识库检索和个性化上下文一次返回。

  50 毫秒,一个 API 调用搞定用户画像

  记忆之外,Supermemory 把用户画像也一并接管了。

  传统方案里,你想让 AI「认识」一个用户,需要自己搭建用户画像系统,手动维护标签、偏好、历史行为。Supermemory 把这件事全自动化了。

  它会把用户信息拆成两层:

  • 静态事实(「资深工程师」「用 Vim」「偏好暗色模式」)

  • 动态上下文(「正在做认证模块迁移」「在 debug 限流问题」)。

  一次 API 调用,延迟约 50 毫秒,你的 Agent 就知道对面坐的是谁。

  把这个画像注入 system prompt,Agent 瞬间从「陌生人模式」切换到「老朋友模式」。

  「全家桶式」的连接能力

  记忆光靠对话还不够,Supermemory 还接通了一整套外部数据源。

  Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时 Webhook 自动同步。

  文档上传后自动处理,PDF 解析、图片 OCR、视频转录、代码 AST 级分块。传上去就能搜,零配置。

  对开发者来说,集成成本被压到了最低。

  npm 装一个包,几行代码就能给自己的 Agent 加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra,主流 AI 开发框架全部有现成的封装。

  内置 Claude Code、OpenCode、OpenClaw 插件

  甚至不写代码也行。

  Supermemory 提供了 MCP 服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code 直接用。

  记忆这场仗,才刚刚开始

  从实验到产品,Supermemory 团队做的事情其实可以用一句话概括:把 AI 的「工作记忆」从一个附加功能,变成一层基础设施。

  过去几年,大模型的竞争集中在参数规模、推理速度、上下文窗口长度。

  但一个 128K 上下文窗口再大,对话结束就清空,下次见面还是陌生人。

  记忆才是让 AI 从「工具」变成「搭档」的最后一块拼图。

  当每一个 Agent 都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会出现一次静悄悄的质变。

  不是 AI 变聪明了,而是它终于不再失忆了。

  参考资料:

  https://x.com/DhravyaShah/status/2035517012647272689?s=20