国内外AI大厂重押，初创梭哈，谁能凭记忆成为下一个DeepSeek？

发布时间：2025-09-08 03:55:38 作者：玩站小弟

9月7日讯《转会市场》统计了今夏转会窗过后的总身价下降比例。

机器之心报道

作者：Youli

谁率先让模型拥有「记忆」，谁就掌握主动权。

「记忆」会是引爆新一轮 AI 浪潮的最后一块拼图吗？

如果时间往前推半年或四五个月，业界对于这一问题可能都是疑惑、不解：彼时 DeepSeek 将大模型推理能力推至高潮引起的余波仍在蔓延，Manus 在全球范围内开启通用 AI Agent 新叙事，人们正沉浸在技术和应用双面开花带来的热闹、狂欢中……「记忆」，有什么好说的？

然而时至今日，推理已然成为各大模型标配，「百 Agent 混战」的背后，「通用 Agent」一席仍旧空缺。技术演进曲线的放缓和爆发式应用到来的「遥遥无期」，开始让业界意识到，下一轮 AI 智能提升的关键在于，让 AI 能够像人类一样持续学习积累经验、适应新任务而不遗忘旧知识，同时实现长上下文的高效理解。

换句话说，就是让大模型拥有像人类一样的「记忆」能力。或许有人会问，当前大模型似乎依靠长文本、外部数据库已经有「记忆」？

是，也不是。如果按照业界呼唤的「类人记忆」这一范畴来看，现在奶茶视频APP所讨论的「记忆」，是指大模型能够具备人类对记忆的组织、检索、应用方式，是一种相较于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。

其实，从国内外大模型从业者的一些操作中也可以感知到「记忆」在业界的「变热」，尤其是刚刚过去的 8 月：

8 月 12 日，Anthropic 宣布旗下聊天机器人 Claude 具有记忆功能，对话中可根据搜索过去对话，在新的聊天中寻找及引用相关资讯，让双方能够无缝地持续讨论，「不必每次都从头开始」。

随后 13 日，谷歌宣布 Gemini 也已配备记忆能力，且支持跨越多次对话，从用户交流中提炼关键细节和偏好，并在下一次交互时主动调用，让对话更自然、更连贯。

8 月 14 日，字节跳动 Seed 团队发布 M3-Agent 系统，首次让 AI 具备了类似人类的长期记忆和推理能力，且不再仅限于文本，已然扩展到视频、音频等多模态中。

8 月 20 日，OpenAI CEO Sam Altman 在发布 GPT-5 后，谈及 GPT-6 的设计愿景时提到，他希望未来的 ChatGPT 版本能够让用户定义语气和个性，而其中关键就在于「记忆」，这将是 GPT-6 的重点所在。

其实早在去年 2 月的时候，OpenAI 已经在 ChatGPT 上线记忆功能。

而今年 4 月，马斯克的 xAI 也宣称 Grok 已经能够记住多轮对话内容。

最新的消息是，又有一个玩家「跑步入场」——Mistral AI，宣布开始引入「记忆」系统，已与 20 多个由 MCP 提供支持的企业平台集成，试图通过记忆来记住重要的事情……

越来越多的玩家开始入局、押注「记忆」。基于此，机器之心与业界从业者进行了交流，奶茶视频APP发现：围绕「记忆」的研究将是接下来大模型的新方向，而谁能率先让大模型拥有像人类一样的「记忆」能力，谁就掌握了主动权。

「记忆」能力，是此刻 AI 技术侧和应用侧的双重诉求

虽然国内外 AI 厂商最近纷纷扎堆推出「记忆」相关产品，但实际上，在学术界，意识到应该将 AI 与记忆相结合的研究要开始得更早一些。

记忆张量 CTO 李志宇告诉机器之心，大概是从 2023 年年底开始的。

记忆张量是一家聚焦 Agent Memory 的初创企业，推出了业界首个记忆操作系统，也是业界最早关注到这一领域的研究团队之一。2024 年 7 月，中国科学院院士鄂维南牵头主导，杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型 ——Memory³（忆立方）正式发布，该模型开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库，以优化推理效率并降低幻觉问题。一经发布，便引起关注，并在后续被 Meta、Google 等团队跟进。而大多数参与成员则是记忆张量的初始团队成员。

李志宇告诉机器之心，虽然早早开始推进「记忆」相关研究，但其实内心也并非那么笃定。

怎么理解？

回顾那一时间段，业界正沉浸在 Scaling Law 是 LLM 第一性原理的叙事中，各大模型厂商忙着堆算力、堆数据，来换取大模型性能提升，但现实是算力匮乏，大厂可以依靠资金与资源上的累积来「大力出奇迹」，但这对许多开发基座模型的团队来说就是一个巨大成本负担，根本比不过。

基于此，团队开始思考能不能从基础理论角度把大模型再「拆开」，看看是否还有可提升空间？「如果某一时刻，当下的 Scaling Law 失效，另一条 Scaling 路线又会是什么？」

一番研究后发现，其实没必要把所有知识（记忆）都压缩进大模型参数空间，只需把公共常识或推理能力压缩进去，而对于那些细碎知识，保证让它在需要用这条具体记忆时能够去检索、使用、与模型一起做推理就够了。团队便试着将模型参数记忆按照显性记忆、隐性记忆和外部记忆做分层建模，以便获得更好的性能提升。

结果很明显，「赌」对了，这是一条具有开创意义的道路，之后团队便继续沿着这一路线进行大模型「记忆」能力的探索……

而腾讯 AI Lab 专家研究员王琰开始感知到大模型「记忆」能力的重要，也是在 2023 年年底，不同的是，他是从应用侧感知到的。

腾讯 AI Lab 是腾讯推出的企业级 AI 实验室，成立于 2016 年 4 月，致力于推动 AGI 发展，研究方向涵盖 NLP、语音、CV、游戏等多个领域。据了解，AI Lab 是业界最早进行利用 RAG 提升模型「记忆」能力的研究团队之一，相关研究曾获得 2021 年 ACL 杰出论文奖。

王琰告诉机器之心，当时他正在开发一款游戏 Agent，其中最重要的一个功能是「陪伴」，比如玩家玩了一年的游戏，那 Agent 就应该记得玩家这一年在游戏里所发生的事情，这就意味着 Agent 需要「终身记忆」。但明显，当时模型的「记忆」能力根本达不到这一诉求。

那时大模型应用主要集中在对话产品，一种主流观点认为，长文本（Long Context）就是一切，或将是通往 AGI 的最佳路径。「如果奶茶视频APP有无限长的 Long Context，奶茶视频APP就能解决任何问题」，是大多数业内人士所坚信的。

但在游戏 Agent 的研究实践上，让王琰意识到不是这么回事。

Long Context 生成方面的研究主要集中在长度外推和扩充窗口长度上，其主要思想是在模型的 KV states 中尽可能多且有效地储存上文信息，并让模型在推理时候尽可能准确用好这些信息。

但这种理念仅适用于对话场景，因为对话场景的 state（状态）不会改变，可 Agent 不同，Agent 场景的一个特点就是场景周围环境随时变化，即 state 随时变化，如果这种变化以 Long Context 形式注入，Context Window 分分钟就要「爆炸」。

当然，扩 Context Window 也是一种有效办法，可更长的上下文意味着更大的显存消耗，「这是个根本无法承受的成本。」

意识到这一点，王琰开始探索新方法。2024 年 1 月，新方法初见成效。

这是一种全新思路：将上文信息储存在模型参数，而非 KV cache 中，来降低对 KV states 的依赖。这些用来储存上文信息的参数被集中在一个临时的 Lora 模块（Temp-Lora）中，推理过程不断拿模型生成的 token 训练这一模块，以实现历史信息存储。

结合他在游戏 Agent 的开发上来看，这是一个参数化记忆，用一个 Lora 模块来记载 Agent 与玩家过去的交互历史，让模型实现类似「终身记忆」的能力。

很明显，在获悉早期从业者之所以进行「记忆」能力相关研究的「缘起」后，对于当下各大模型厂商不断重申「记忆」的重要性也就不难理解：这是技术侧和应用侧的双重诉求。

从技术层面来看，如果说 2023 年年底，只是少数人担心 Scaling Law 会失效，那么现在不管是 OpenAI 还是其他 AI 大厂都已经清楚认识到，过去几年通过堆算力、参数量来获得性能提升的「边际效应」已经明显下降，即便再去堆成倍的算力，都拿不到 10% 甚至 5% 的能力突破，仅仅依靠「大」已经无法把模型性能，或者在应用场景的能力进行比较好的提升。他们同样也想要去寻找新的技术范式。

「技术本身的瓶颈导致大家开始寻找新方向。」李志宇说道。

他认为，从这个角度来看，如果用人类来类比大模型，人与动物的不同在于，一是人会制造和使用工具，这对应的是（模型）MCP 这一层的能力。另外一点是，人能够总结、思考和反馈，并且形成记忆，然后让「记忆」在人类整个文明传承过程当中，被不断建模、重构以获得进一步性能提升。如今看来，模型工具层面已经做完了，而且更多是横向过程（MCP 层级），接下来大家想要突破的可能就是「记忆」这个口子了。

从应用层面来看，当前 AI Agent 已是大模型主流叙事，数量上「百 Agent」竞相狂奔的盛景已是事实。能力上，大家对于模型本身的要求越来越高，不再是最开始仅作为单一工具去解决瞬时问题，而是把 AI 当成合作伙伴或秘书去解决更为长期的问题，这就需要它能够记住之前的交互与反馈。

「这种情况下，模型终身记忆，而且是不依赖 Context Window 的终身记忆就成为非常重要的事情了。」王琰说道。

Agent 想要取得突破性进展，「记忆」是必不可少的一个环节。

技术尚未收敛，路径抉择不一

当前，随着市场上开始重视模型「记忆」能力的大模型厂商越来越多，「记忆」前面的限定词也变得五花八门，「终身记忆」「持久记忆」「全局记忆」「个性化记忆」等术语不断涌现。

在李志宇看来，这是因为单纯谈「记忆」本身对于普通用户的理解成本较高，所以各大厂商在命名时会在前面加限定词，一定程度上也代表了各自的技术侧重点不同。

比如，OpenAI 提及的是「全局记忆」，更像是对应于 Anthropic 提出的「局部记忆」概念的映射。前者认为记忆应该无处不在，在用户可能用到的地方随时随地出现，所以「全局记忆」是从覆盖面上考虑的，而「终身或持久记忆」是基于时间线角度的考量。归根究底，「记忆」能力的重点在于如何把大模型记忆本身或 AI 应用的记忆本身这件事情做好。

目前来看，当前业界对于大模型「记忆」能力的研究主要有这样几种路线。

一是参数化记忆，是架构层面，基于基座模型本身的驱动融合记忆创新，去解决记忆问题。目标是让模型从参数层面自己能够区分哪些是需要被作为「记忆」去检索和建模，然后在推理过程中融合到前向推理过程中。

参数化记忆也分两种，一种是直接基于目前模型主流的 Transformer 架构展开研究，比如 Temp-Lora 方法，就是用 Lora 模块来记录过去的对话历史。

另外一种是采用非 Transformer 架构。比如，谷歌推出 Titans 架构，提出三级记忆（短期 / 长期 / 持久记忆），用「惊讶度」机制动态更新记忆；Meta 的研究突破在于将 Transformer 中的前馈网络（FFN）替换为记忆层，并保持其他部分不变；国内的非 Transformer 架构 RWKV 等。

李志宇认为，这一路线的好处在于整体理论上限非常高，（做得好的话）可能突破现有的模型「记忆」，对于时间、人物、连续性的感知问题都能够有较好解决方案。但问题也很明显，「研发成本非常高，短期内落地难度比较大。」

王琰持相似看法。在他看来，当前市场上有多种非 Transformer 模型架构宣称自己有「长期记忆」能力，但问题在于这种「长期」局限于架构，就像人脑容量一样，是有上限的。这就导致这些所谓的「长期记忆」模型在长期记忆上「打不过」只有短期记忆的 Transformer，因为 Transformer 可以通过堆硬件来解决，实现「长期记忆」。

二是上下文记忆（上下文工程），即将模型需要知道的信息以 prompt 方式放在 Context Window 中，当模型开始推理之前可以先浏览一遍获取相应信息。Manus 是一家典型将上下文工程做到极致的公司，近期研究中不断强调在 Agent 交互过程中更好地做 KV cache 管理（KV cache 管理本质上就是一种记忆管理形式），尽可能让不同 Agent 之间能够复用一些「记忆」。

但局限性也很明显，上下文工程是基于人类智慧来指挥，那当模型推理出错时就容易混淆，到底是上下文工程出错还是模型本身出错？当前并没有一个自动化机制来评判，所以最后上下文工程容易变成纯粹的工程事情。

三是外部数据库 / RAG，即将信息存储在模型外部数据库中（如向量数据库），在需要时通过 RAG 将最相关内容取回，注入到当前 Context Window 中，为模型提供决策依据。

从研究上来看，现有 RAG 最终目的是让模型每次搜索都一定返回正确结果，可即便是人类用搜索引擎也会经常修改关键词，所以难以保证搜索时能够找到自己想要的内容。为此，就不得不修改检索算法，但这也并非易事，甚至需要扩大团队规模来专门做这件事，最后往往变成大家都在做 RAG，并非模型本身，本末倒置。而且这显然也无法通过训练来实现模型整体性能提升，所以虽然看似工程上广泛使用，但上限低。

很明显，每一条路线都有各自优势与局限性，短期内并没有一个最优解，有些玩家甚至选择的不是单一路线，而是探索多种路线的融合。

王琰认为，这是由于当前技术路线还未收敛，按照各自路线进行探索与改进，都会带来一定程度上模型「记忆」能力的提升。因为大家诉求一致，「能够用尽量少的代价来记忆得尽量牢。」王琰说道，根据这一诉求，未来模型「记忆」能力无非就是在围绕记忆的压缩比与保真度这两个事情在做。

同样，李志宇也这样认为，当前有关模型「记忆」的研究还处于早期阶段，各种路线的解题思路其实都是围绕如何用空间换时间，或者如何在有限的空间内提高模型整体的推理和应用效率。

据了解，目前王琰及其所在团队正全力攻关具有 Inference Time Training 能力的新型模型架构，即在推理过程中不断的把过去历史储存到模型的参数区中，也就是参数化记忆。

而相较于常规路线划分，李志宇更倾向于把上下文工程与 RAG + 外部数据库这种形式归为一类，因为它们更多是从应用层面解决记忆机制实现问题，且本质都是一种「外挂记忆」，上限比较明显。

路线上则选择了一条折中方式，即将目前基模能落地的一部分加上应用工程创新能落地的一部分，两者相互结合，打造出一套能够解决问题的记忆框架，这也正是当前记忆张量在做的事情，并推出面向大模型的开源记忆操作系统 MemOS。

谁能凭借「记忆」再造一个「DeepSeek」？

虽然关于模型「记忆」能力的路线划分复杂、多样，但其实从玩家来看，当前业界主要有两类玩家。

一类是像 OpenAI、Anthropic、Google 这类 AI 厂商，他们有自己 ToC 向 Chat 服务，在这一类的服务里面，他们更多是想通过引入「长短期记忆」能力来达成个性化服务目标。

当然，可能各个厂商所要达成个性化能力本身会有差异，像是OpenAI 强调「全局记忆」，Anthropic 强调的是「局部记忆」按需使用，但本质诉求更多是想借助「记忆」的个性化能力来留住用户。

另一类是「记忆」的中间件服务商，类似于 Mem0 或者记忆张量的 MemOS ，以及 Zep 等开源的记忆框架，它们更多是扮演大模型到应用层的中间件角色，面向更为广泛的开发者，希望开发者和相关应用产品能够体会到，类似于 OpenAI 在自己产品里面展现的「记忆」能力增强所带来的体验和性能变化。

而围绕着两类玩家在模型「记忆」能力上的诉求不同，他们各自的商业模式也或将发生变化。

比如对于 OpenAI 这样的大厂来说，他们的目标是让用户在自家的 APP 类产品上高频使用、形成越多越多的「记忆」，继而在自家 APP 上沉淀、形成粘性，之后一旦用户绑定，可能就很难再挪到其他地方去。从这个角度来说，他们希望用户能相对独立、在自家场景池子里沉淀出「独家记忆」。

而对于初创企业来说，他们希望更多的开发者或企业能够快速去具备「记忆」能力，同时让大家形成一个可共享的记忆中枢，随着越来越多的 APP 联合去做记忆的共享、中枢的管理，就会形成对原有中心化的「去中心化」，同时也会形成一个新的中心化记忆平台。

这种记忆平台或许能够立体刻画这个用户的所有事情，比如对用户在工作场景、生活场景的经历、偏好等，有一个立体记忆能力，而这种记忆是能够增强他在使用任何与 AI 相关 APP 上的体验。

Mistral AI 的最新动作，无疑是这类玩家的一个典型代表，宣布免费、大幅扩展其企业级业务平台 Le Chat，并已经和 20 多家平台集成。而这一动作也被视为是在试图通过提供先进的「记忆」功能和广泛的第三方集成，来打破已有的 AI 市场竞争格局……

由此看来，AI 战场已经升级，在新一轮围绕「记忆」能力构建的竞赛中，各类玩家是一个互相角力的状态，战况胶着，谁都有可能「跑」出来。而前面也已经提到，「记忆」能力，是模型技术层面和应用层的双重诉求，一旦取得突破性进展，那么无疑将再现「DeepSeek 时刻」「Manus 时刻」。

而从当前 AI「记忆」能力的发展状况来看，目前留给各大玩家的时间也不是「很多」。

按照李志宇的理解，如果将模型「记忆」能力按照抽取、存储、更新、调度、应用、治理六个维度划分，那奶茶视频APP可能距离真正能够在大范围去用，并且大家能够感受到它给奶茶视频APP生活带来无处不在变化的话，可能还需要一到两年的时间。

而如果想要达到治理层面，也就是解决模型「记忆」本身的幻觉问题、隐私保障，甚至立法等问题的话，至少可能还要三到五年的时间。

未来，到底是谁将再现「DeepSeek 时刻」，目前看来是「乾坤未定，一切皆有可能是黑马」。

Tag： {loop type="keywords" row='10' } {$vo.title}

奶茶视频APP,奶茶视频下载,奶茶视频app官网,奶茶视频app海纳百川有容乃大

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

{$vo.typename}

国内外AI大厂重押，初创梭哈，谁能凭记忆成为下一个DeepSeek？