Transformer vs. Post-Transformer:AI架构之巅的终极辩论
第一部分 活动开场与嘉宾介绍 (开始时间0% - 结束时间8%)
- 活动背景与主题:主持人宣布本次为一场特殊的“拳击”辩论,主题是“Transformers vs. Post-Transformers”,旨在探讨引发AI革命的核心架构之争。辩论将决定谁将引领AI的下一个时代,其背后是塑造万亿美元市场的数学原理,甚至可能关乎人类的未来。
- 嘉宾阵容介绍:
- “后Transformer”阵营(紫方):三位挑战者,倡导动力系统、潜在推理、持续学习等超越传统注意力机制的架构。
- Llion Jones:原始Transformer论文的合著者,Sakana AI的联合创始人兼CTO,现转为挑战方。
- Mathias Lechner:MIT研究员,液体神经网络(Liquid Neural Networks)的共同发明人,Liquid AI的CTO。
- Adrian Kosowski:量子物理学家,理论计算机科学家,Dragon Hatchling (BDH)架构的发明人,Pathway的CSO。
- “Transformer”阵营(蓝方):卫冕冠军,现代AI的注意力机制捍卫者。
- Łukasz Kaiser:Transformer的共同发明人,ChatGPT o1和o3的创造者。
- “后Transformer”阵营(紫方):三位挑战者,倡导动力系统、潜在推理、持续学习等超越传统注意力机制的架构。
- 辩论规则说明:辩论分为多个环节,包括每人5分钟的开场陈述、3分钟的反驳、三轮各4分钟的快速问答、简短结语,以及观众提问。在反驳环节,辩手可以举“拳套”示意提出“质询点”,由发言者决定是否接受挑战。
第二部分 开场陈述:各方立论 (开始时间8% - 结束时间20%)
-
Łukasz Kaiser(支持Transformer):
- 工程实效性:Transformer的核心优势在于其惊人的简单和有效。这个仅预测下一个token的机器能够聊天、写代码、操作电脑,这是许多其他系统未能做到的。他最近重试RNN,发现其仍然不尽如人意。
- 本质是记忆:从RNN视角理解,Transformer是一种基础的、可微分的记忆形式。它像图书管理员一样,为每个新信息写入一个“键”和对应的“值”(地址)。当查询到来时,它寻找最相似的键并返回值。这种记忆只是简单地连接一切,使其越来越长,是种极为基础且必然有效的机制。
- 可扩展的简洁性:尽管存在上下文遗忘、推理链冗长等缺点,但可以通过添加上下文压缩、思维链、混合专家系统等方法来解决。它的核心简单、优美且有效。
-
Adrian Kosowski(支持后Transformer):
- 追求智能的“主题”:后Transformer时代并非否定Transformer作为一种智能形式的成功,而是要探索智能背后共通的“主题”或“主旋律”。正如PageRank和MapReduce改变了信息索引,我们需要发现智能的“PageRank时刻”。
- 现有智能的短板:Transformer作为一种智能,存在持续学习、长期记忆、潜在空间推理(需复杂技巧实现)等问题。后Transformer的目标是找到一种更完整、更直接的方法来实现智能的主题。
- BDH架构的启示:他所在的Pathway公司提出的BDH架构提供了一个线索:智能的主题在于在高维空间中进行潜在推理的能力,结合状态空间模型和序列处理的优势。
-
Mathias Lechner(持实用主义立场):
- 兼收并蓄的实用主义:对他而言,问题不是“Transformer或后Transformer”,而是“Transformer和后Transformer”。他们设计模型时考虑硬件、用例和具体能力,因此乐于从所有可用的构建模块中汲取灵感。
- 动态世界需求:世界是动态的,硬件、研究进展和人们对AI的期望都在变化。例如,他们已实现在树莓派上以每秒40个token的速度运行达到GPT-3级别能力的语言模型,这得益于混合多种架构。
- 让Transformer自己寻找替代者:鉴于Transformer取得的巨大进步,以及自主智能体(Agent)的涌现,他相信这些智能体最终可能会自己发现并创造出Transformer的替代架构。
-
Llion Jones(支持后Transformer):
- 经济合理性与长远押注:他承认,如果身处Łukasz的位置(如OpenAI),集中资源优化Transformer是合理的经济策略。但对于初创公司,将资源投入寻找下一代架构的“长远押注”是合理的,正如OpenAI当年发现Transformer的缩放潜力一样。
- Transformer是“暴力”计算:他认为Transformer虽然优雅,但本质是“暴力”的,需要海量的数据和算力。人脑无需阅读整个互联网数遍就能达到相近的智能水平,这证明存在更好的路径。
- 陷于局部最优:Transformer的巨大成功使整个领域陷入了“局部最优解”,人们过度专注于这一架构。要找到下一代架构,需要有人做出非常不同的尝试。他相信,一旦下一代架构出现,所有人都将别无选择地转向。
第三部分 反驳环节:针锋相对 (开始时间20% - 结束时间28%)
-
Łukasz Kaiser的反驳:
- 承认差距但质疑方法:他认同人脑在数据效率和泛化能力上远超当前技术,但质疑后Transformer阵营是否有可行的方法论。他最近将Transformer实现为RNN并与其他RNN对比,发现即使很小的GRU在现有硬件上也比大得多的Transformer慢50倍,这是致命的。
- 硬件与算法选择:并行硬件比顺序硬件更容易制造。Transformer的成功塑造了硬件发展方向。但他也承认,如果后Transformer模型能展示出更优的缩放曲线,即使初期慢50倍,硬件也会随之改变。
- 挑战抛回:真正的挑战在于找到比Transformer更智能的方法,这可能最终由Transformer自己发现。
-
Adrian Kosowski的反驳:
- 区分学习与推理:他反驳了将反向传播与循环性混为一谈的观点。反向传播在学习阶段很有效,但在深度推理时,梯度在长路径上回溯会出问题。Transformer在深度和循环性之间的妥协使其可训练,但这个妥协可以调整,以解决“用语言思考而非潜在思想”的核心限制。
- 硬件适配性:RNN不适合矩阵乘法是RNN的问题,而后Transformer阵营并非“RNN俱乐部”,存在能充分利用现代硬件(如GEMM)的更好架构。
- 状态量的关键:RNN状态太少,而人脑状态极多,这是人脑有效而RNN无效的关键原因之一。
-
Mathias Lechner的反驳:
- Transformer与RNN的边界模糊:他指出,当Transformer拥有高效的小型KV缓存,而RNN拥有巨大的状态(GB级别)时,两者之间的界限变得模糊,这个问题变得哲学化。
- 智能的固定状态实现:人脑在原子层面是固定状态的,这证明智能可以用固定状态实现。考虑到Transformer的惊人进展,他相信自主智能体(Agent)很可能会自己找到Transformer的替代品。
-
Llion Jones的反驳:
- 突破在于硬件,而非组件排列:人们误以为Transformer的突破在于组件排列组合,而真正突破在于硬件(能更快处理token)。这个优化空间现已饱和,需要从根本上质疑神经网络的所有假设。
- 必须跳出范式:他们公司在探索一些甚至不确定能否用反向传播训练的全新方向。他认为社区存在一种认知失调:既知突破必将到来,又对每次突破感到惊讶。研究者必须跳出当前架构的范式,才能找到下一代技术。
第四部分 快速问答轮次 (开始时间28% - 结束时间53%)
-
第一轮:智能的本质:
- Łukasz:智能难以定义,但作为工程师,应从可观测的行为出发。Transformer是目前在硬件上可观测到的智能体现。他认为当前范式一个奇怪的“正确”定义是:预测互联网下一个词的能力。他认为智能是压缩,压缩互联网越好,就越智能。
- Adrian:智能是过程而非产品,是信息处理的方式。可以将其视为算法或动力系统。Transformer是智能的一种体现,但并非其背后的根本过程。
- Mathias:智能难以量化,有文化成分,涉及压缩、预测等多方面,没有唯一清晰的定义。
- Llion:Transformer本质是序列模型,不限于语言,也可处理蛋白质、图像等。其局限性在于被迫用语言“思考”,而人脑有些思维过程并非基于语言,这是后Transformer需要解决的。
-
第二轮:可扩展性与缩放定律:
- 共识:所有辩手基本同意,可扩展性(缩放)是Transformer成功的关键,任何后Transformer架构也必须证明其卓越的可扩展性。
- Łukasz:有些模型缩放性更差,这是模型的真正问题。在当今算力条件下,如果能展示出更优的缩放曲线,即使需要20-50倍算力,他也愿意认输,但尚未看到令人信服的曲线。
- Adrian:Transformer将数据、规模和算力等不同维度的缩放耦合在一起。而后Transformer架构可能将它们解耦,例如在数据有限的情况下,通过大量计算进行缩放(更像人脑的学习方式)。
- Llion:他担忧Transformer在扩展性上如此优秀,以至于即使有更高效的架构,也可能因“硬件彩票”和行业惯性而难以被采纳。他强调,后Transformer的初代版本可能不如Transformer,研究者应接受这一点,勇于尝试。
-
第三轮:现实世界部署与基准测试:
- Mathias:在蛋白质、基因序列等非文本模态的实际问题中,某些架构(如RNN)表现出比Transformer更强的性能扩展规律。同时,部署时的速度、硬件成本至关重要,架构将与硬件共同进化。
- Łukasz:他推崇困惑度作为核心指标,它本质是压缩指标,难以被超越。他建议创建一个商业化的、保密的困惑度基准测试集,供各实验室付费使用,以此驱动架构进步。
- Llion:困惑度是目前最佳方法,但基准测试容易被“攻破”(针对性优化),且高分不一定能泛化到其他任务。
- 关于上下文学习:Łukasz指出Transformer强大的上下文学习能力是其难以被击败的原因之一,它能在给定上下文内快速适应新任务。但他和Adrian都认为,需要更好的基准测试来衡量模型在长上下文、特别是从自身经验(而非外部数据)中持续学习的能力。
第五部分 结语与观众问答精选 (开始时间53% - 结束时间92%)
-
最终结语:
- Łukasz Kaiser:重申Transformer目前仍占优,但欢迎看到更好的模型。再次强调创建保密困惑度基准测试的重要性。
- Adrian Kosowski:Transformer是为预训练硬件优化的架构。在推理占主导的未来,其是否仍是硬件利用的终极答案尚存疑问。他押注于更高效、更紧凑的推理方式。
- Mathias Lechner:他们的策略是双向押注,既改进Transformer,也研究后Transformer,探索一切可能性。
- Llion Jones:坚信存在更好的架构,因为Transformer在太多方面不如人脑。AI突破总会发生,当它来临时,世界将坚定地进入后Transformer时代。
-
观众提问精选:
- 硬件局限与创新:观众提问如何突破催生Transformer的硬件束缚(硬件彩票)。Llion承认这是困境,呼吁行业接受初期不完美的创新。Łukasz则认为,50倍的常数级劣势可以被更优的缩放曲线覆盖,硬件将随之改变,且如今AI能编写高性能CUDA代码,降低了创新门槛。
- 持续学习与静态权重:观众问及持续学习(动态神经网络)与Transformer静态权重的对比。Adrian认为,Transformer的前向传播激活在某种程度上模拟了反向传播的梯度下降,这或许就是其“学习”方式。Llion则认为,为动态权重从头设计的架构可能更优雅。Łukasz指出,Transformer的注意力权重本身就是动态的,其上下文学习能力已被低估。
- 潜在空间推理与安全:观众询问允许模型在潜在空间而非文本中推理是否会带来生存风险。Łukasz警告,Transformer的激活层已是包含大量不可知信息的“潜在空间”,当前文本输出的“忠实性”可能是一种假象。Llion则希望,更接近人脑工作原理的后Transformer架构可能反而更可解释、更安全。
第六部分 活动收尾 (开始时间92% - 结束时间100%)
- 胜负判定:主持人通过观众欢呼声的分贝大小来判定胜负,最终后Transformer阵营获得了更高的声浪,象征性地赢得本场辩论。
- 活动结束:主持人感谢所有嘉宾和观众,宣布活动结束,并邀请观众与嘉宾继续交流。
Top comments (0)