DEV Community

cognitalk
cognitalk

Posted on

Manifest AI联创Jacob谈Transformer的不足与提出 Power Retention

这段 Eye on AI的访谈视频深度探讨了为什么 Transformer 架构无法承载 AI 的未来,并详细介绍了一种名为 Power Retention(幂次保留机制) 的全新架构解决方案

受访者是 Jacob(Manifest AI 的联合创始人,卡内基梅隆大学计算机学士、Mila 实验室 AI 博士)。

以下是视频内容的超详细拆解(包含时间戳索引):


一、 当前 Transformer 架构的核心瓶颈:长文本的二次方成本

  • 参数扩展与输入扩展的脱节 [05:18]:
  • 参数扩展(Parameter Scaling) 的成本随参数量呈线性增长,这非常健康,也是推动大模型走到今天的关键。
  • 输入扩展(Input Scaling,即上下文窗口 Context Window) 则是 Transformer 的噩梦。由于每个 Token 都必须与其他所有 Token 计算相关性,其计算和训练成本呈二次方(Quadratic)增长。

  • “长文本”的行业欺骗与潜规则 [31:20]:

  • 因为真正的 Transformer 训练长文本极其昂贵,市面上宣称支持 100 万 Token 的大模型,实际上都使用了“偷梁换柱”的折中方案,如窗口 Transformer(Windowed)、稀疏注意力(Sparse Attention)或混合注意力(Hybrid Attention)(即只有少数几层是全局注意力,其余是局部窗口)。

  • 这导致模型在长文本中存在注意力“盲区”(Hot spots 和 Dry patches),且由于 90% 的训练时间都在处理短文本 [32:46],模型在超过 32k 后的表现会严重退化 [33:44]。


二、 破局者:Power Retention(幂次保留)架构

  • 对传统循环神经网络(RNN)和 Mamba 的反思 [07:53]:
  • Mamba、Mamba 2 以及其他 sub-quadratic(亚二次方)架构本质上属于 Retention(保留)模型。它们具有双重性(Duality):既可以写成 RNN(循环)形式,也可以写成 Attention(注意力)形式
  • 这解锁了第三种形态——分块表述(Chunked Formulation) [01:18, 08:17]:既拥有 RNN 处理长文本时成本线性增长的优势,又能像 Attention 一样让 GPU 的矩阵乘法算力达到饱和(传统 LSTM 做不到这一点)。
  • 致命缺陷 [09:08]:Mamba 等架构的状态大小(State Size)相对于权重(Weights)太小了。而 Transformer 的 KV Cache 实际上是一个巨大无比的“隐式状态” [09:41]。由于状态大小也符合扩展定律(Scaling Laws),状态太小的 Mamba 在长文本上的性能远不如 Transformer。

  • Power Retention 核心优势:“多了一根调节杠杆” [11:06]:

  • “Power(幂次)”指的是一种被称为“对称幂(Symmetric Power)”的数学操作 [15:06]。

  • 它允许在不增加模型参数量的前提下,将状态(State Size)无限放大,并对 GPU 极其友好。

  • 这意味着开发者可以独立调节状态大小,在所有计算预算下都达到算力最优(Compute Optimal) [11:46]。


三、 “蜕变”技术(Metamorphosis)与开源模型

  • 一行代码替换 Transformer [18:45, 20:58]:
  • Manifest AI 提出了一种“蜕变”方法:无需从头训练,直接拿开源的 Transformer 模型(如 Llama 70B)[20:22],在架构代码中把 Attention 调用删掉,换成 Power Retention 调用
  • Retraining(重新训练) [21:27]:使用几十张 GPU 训练几个小时(比如 6 小时),模型性能就能恢复到原有 Transformer 的水平,但它从此变成了一个低成本、高灵活性的 Power Retention 模型。

  • PowerCoder 模型 [18:32]:

  • 作为概念验证,他们推出了一个 3B(30亿)参数的编程助手 PowerCoder

  • 目前该模型和权重已在 Hugging Face 开源 [19:38],其底层技术工具箱(包含 Flash Attention 的快速实现)也已在 GitHub 开源(可通过 pip install retention 安装)[55:00]。


四、 颠覆认知:知识应该存在“状态(上下文)”里,而非“权重”里

  • 关于“灾难性遗忘”的全新视角 [22:11, 38:14]:
  • Jacob 认为,学术界目前头疼的“灾难性遗忘”是个假问题。因为以前上下文太短,人们不得不通过更新“权重(Weights)”来注入新知识,导致原有知识被破坏。
  • 如果上下文无限且便宜,新知识应当完全通过“状态/上下文(State/Context)”来注入,根本不需要动权重 [39:19]。

  • 颠覆性的“人脑/进化”比喻 [39:33]:

  • 误区:很多人把大模型更新权重比作人脑学习。

  • 雅各布的观点人类过完的一生、吸收的所有经历,本质上是“状态更新(State Updates)”。你脑中的电信号闪烁是当前状态,这跟权重更新无关。

  • 权重的本质是“进化(Evolution)” [40:24]。人类基因组经过数亿年进化(类似梯度下降),给了我们一个完美的“大脑结构(Weights)”。这个结构擅长的是如何处理新输入的上下文并将其转化为正确的状态。未来 AI 应该停止频繁改动权重,让权重保持稳定,让知识在状态中流转 [41:09]。


五、 未来杀手级应用场景

  • 从“顾问”到“管家”的体验转变 [45:33]:
  • 现在的 Transformer 迫使你在一段时间后必须“开启新对话”(因为 KV Cache 越来越贵)[45:22],AI 就像一个每次见面都要重新介绍背景的“临时顾问”。
  • Power Retention 能够以固定成本终生更新状态 [44:58],AI 将变成一个从小拉扯你长大、懂你所有喜怒哀乐和历史问题的“老管家” [45:50]。

  • 企业级的“超级项目经理” [47:54]:

  • 可以设计一个全公司共享状态的 AI。所有人都在向同一个 AI 说话,它能实时吸收 A 员工的经验去解决 B 员工的阻碍,起到完美的跨团队协作协调作用 [48:41]。

  • 消灭幻觉的“信息检索智能体(IR Agents)” [27:31]:

  • 不再需要 ad-hoc(外挂式)的 RAG 检索算法。超长上下文允许智能体通过强化学习,自主决定调用什么工具、搜索什么文献、下一步研究什么,并端到端地记住整条研究轨迹 [28:16]。

  • AI 会像人类科学家一样,做完长达数周的完整研究后再给出结论,从而彻底消灭大模型的幻觉 [29:00]。

  • 具身智能与机器人生命周期的连续性 [49:42]:

  • 该架构同样适用于多模态(视频、音频、传感器数据嵌入)[52:06]。

  • 它可以让一个机器人从出厂到报废,维持一个不间断的、统一的生命状态(Single Unified State) [50:01]。即使机器人因硬件老化、肢体受损(比如腿瘸了),它也能像人类受伤一样,基于一生的物理直觉,在运动中实时在线学习和适应新的行走姿态 [51:06]。

Top comments (0)