Transformer vs. Post-Transformer：AI架构之巅的终极辩论

Transformer vs. Post-Transformer：AI架构之巅的终极辩论

第一部分活动开场与嘉宾介绍 (开始时间0% - 结束时间8%)

活动背景与主题：主持人宣布本次为一场特殊的“拳击”辩论，主题是“Transformers vs. Post-Transformers”，旨在探讨引发AI革命的核心架构之争。辩论将决定谁将引领AI的下一个时代，其背后是塑造万亿美元市场的数学原理，甚至可能关乎人类的未来。
嘉宾阵容介绍：
- “后Transformer”阵营（紫方）：三位挑战者，倡导动力系统、潜在推理、持续学习等超越传统注意力机制的架构。
  - Llion Jones：原始Transformer论文的合著者，Sakana AI的联合创始人兼CTO，现转为挑战方。
  - Mathias Lechner：MIT研究员，液体神经网络（Liquid Neural Networks）的共同发明人，Liquid AI的CTO。
  - Adrian Kosowski：量子物理学家，理论计算机科学家，Dragon Hatchling (BDH)架构的发明人，Pathway的CSO。
- “Transformer”阵营（蓝方）：卫冕冠军，现代AI的注意力机制捍卫者。
  - Łukasz Kaiser：Transformer的共同发明人，ChatGPT o1和o3的创造者。
辩论规则说明：辩论分为多个环节，包括每人5分钟的开场陈述、3分钟的反驳、三轮各4分钟的快速问答、简短结语，以及观众提问。在反驳环节，辩手可以举“拳套”示意提出“质询点”，由发言者决定是否接受挑战。

第二部分开场陈述：各方立论 (开始时间8% - 结束时间20%)

Łukasz Kaiser（支持Transformer）：
- 工程实效性：Transformer的核心优势在于其惊人的简单和有效。这个仅预测下一个token的机器能够聊天、写代码、操作电脑，这是许多其他系统未能做到的。他最近重试RNN，发现其仍然不尽如人意。
- 本质是记忆：从RNN视角理解，Transformer是一种基础的、可微分的记忆形式。它像图书管理员一样，为每个新信息写入一个“键”和对应的“值”（地址）。当查询到来时，它寻找最相似的键并返回值。这种记忆只是简单地连接一切，使其越来越长，是种极为基础且必然有效的机制。
- 可扩展的简洁性：尽管存在上下文遗忘、推理链冗长等缺点，但可以通过添加上下文压缩、思维链、混合专家系统等方法来解决。它的核心简单、优美且有效。
Adrian Kosowski（支持后Transformer）：
- 追求智能的“主题”：后Transformer时代并非否定Transformer作为一种智能形式的成功，而是要探索智能背后共通的“主题”或“主旋律”。正如PageRank和MapReduce改变了信息索引，我们需要发现智能的“PageRank时刻”。
- 现有智能的短板：Transformer作为一种智能，存在持续学习、长期记忆、潜在空间推理（需复杂技巧实现）等问题。后Transformer的目标是找到一种更完整、更直接的方法来实现智能的主题。
- BDH架构的启示：他所在的Pathway公司提出的BDH架构提供了一个线索：智能的主题在于在高维空间中进行潜在推理的能力，结合状态空间模型和序列处理的优势。
Mathias Lechner（持实用主义立场）：
- 兼收并蓄的实用主义：对他而言，问题不是“Transformer或后Transformer”，而是“Transformer和后Transformer”。他们设计模型时考虑硬件、用例和具体能力，因此乐于从所有可用的构建模块中汲取灵感。
- 动态世界需求：世界是动态的，硬件、研究进展和人们对AI的期望都在变化。例如，他们已实现在树莓派上以每秒40个token的速度运行达到GPT-3级别能力的语言模型，这得益于混合多种架构。
- 让Transformer自己寻找替代者：鉴于Transformer取得的巨大进步，以及自主智能体（Agent）的涌现，他相信这些智能体最终可能会自己发现并创造出Transformer的替代架构。
Llion Jones（支持后Transformer）：
- 经济合理性与长远押注：他承认，如果身处Łukasz的位置（如OpenAI），集中资源优化Transformer是合理的经济策略。但对于初创公司，将资源投入寻找下一代架构的“长远押注”是合理的，正如OpenAI当年发现Transformer的缩放潜力一样。
- Transformer是“暴力”计算：他认为Transformer虽然优雅，但本质是“暴力”的，需要海量的数据和算力。人脑无需阅读整个互联网数遍就能达到相近的智能水平，这证明存在更好的路径。
- 陷于局部最优：Transformer的巨大成功使整个领域陷入了“局部最优解”，人们过度专注于这一架构。要找到下一代架构，需要有人做出非常不同的尝试。他相信，一旦下一代架构出现，所有人都将别无选择地转向。

第三部分反驳环节：针锋相对 (开始时间20% - 结束时间28%)

Łukasz Kaiser的反驳：
- 承认差距但质疑方法：他认同人脑在数据效率和泛化能力上远超当前技术，但质疑后Transformer阵营是否有可行的方法论。他最近将Transformer实现为RNN并与其他RNN对比，发现即使很小的GRU在现有硬件上也比大得多的Transformer慢50倍，这是致命的。
- 硬件与算法选择：并行硬件比顺序硬件更容易制造。Transformer的成功塑造了硬件发展方向。但他也承认，如果后Transformer模型能展示出更优的缩放曲线，即使初期慢50倍，硬件也会随之改变。
- 挑战抛回：真正的挑战在于找到比Transformer更智能的方法，这可能最终由Transformer自己发现。
Adrian Kosowski的反驳：
- 区分学习与推理：他反驳了将反向传播与循环性混为一谈的观点。反向传播在学习阶段很有效，但在深度推理时，梯度在长路径上回溯会出问题。Transformer在深度和循环性之间的妥协使其可训练，但这个妥协可以调整，以解决“用语言思考而非潜在思想”的核心限制。
- 硬件适配性：RNN不适合矩阵乘法是RNN的问题，而后Transformer阵营并非“RNN俱乐部”，存在能充分利用现代硬件（如GEMM）的更好架构。
- 状态量的关键：RNN状态太少，而人脑状态极多，这是人脑有效而RNN无效的关键原因之一。
Mathias Lechner的反驳：
- Transformer与RNN的边界模糊：他指出，当Transformer拥有高效的小型KV缓存，而RNN拥有巨大的状态（GB级别）时，两者之间的界限变得模糊，这个问题变得哲学化。
- 智能的固定状态实现：人脑在原子层面是固定状态的，这证明智能可以用固定状态实现。考虑到Transformer的惊人进展，他相信自主智能体（Agent）很可能会自己找到Transformer的替代品。
Llion Jones的反驳：
- 突破在于硬件，而非组件排列：人们误以为Transformer的突破在于组件排列组合，而真正突破在于硬件（能更快处理token）。这个优化空间现已饱和，需要从根本上质疑神经网络的所有假设。
- 必须跳出范式：他们公司在探索一些甚至不确定能否用反向传播训练的全新方向。他认为社区存在一种认知失调：既知突破必将到来，又对每次突破感到惊讶。研究者必须跳出当前架构的范式，才能找到下一代技术。

第四部分快速问答轮次 (开始时间28% - 结束时间53%)

第一轮：智能的本质：
- Łukasz：智能难以定义，但作为工程师，应从可观测的行为出发。Transformer是目前在硬件上可观测到的智能体现。他认为当前范式一个奇怪的“正确”定义是：预测互联网下一个词的能力。他认为智能是压缩，压缩互联网越好，就越智能。
- Adrian：智能是过程而非产品，是信息处理的方式。可以将其视为算法或动力系统。Transformer是智能的一种体现，但并非其背后的根本过程。
- Mathias：智能难以量化，有文化成分，涉及压缩、预测等多方面，没有唯一清晰的定义。
- Llion：Transformer本质是序列模型，不限于语言，也可处理蛋白质、图像等。其局限性在于被迫用语言“思考”，而人脑有些思维过程并非基于语言，这是后Transformer需要解决的。
第二轮：可扩展性与缩放定律：
- 共识：所有辩手基本同意，可扩展性（缩放）是Transformer成功的关键，任何后Transformer架构也必须证明其卓越的可扩展性。
- Łukasz：有些模型缩放性更差，这是模型的真正问题。在当今算力条件下，如果能展示出更优的缩放曲线，即使需要20-50倍算力，他也愿意认输，但尚未看到令人信服的曲线。
- Adrian：Transformer将数据、规模和算力等不同维度的缩放耦合在一起。而后Transformer架构可能将它们解耦，例如在数据有限的情况下，通过大量计算进行缩放（更像人脑的学习方式）。
- Llion：他担忧Transformer在扩展性上如此优秀，以至于即使有更高效的架构，也可能因“硬件彩票”和行业惯性而难以被采纳。他强调，后Transformer的初代版本可能不如Transformer，研究者应接受这一点，勇于尝试。
第三轮：现实世界部署与基准测试：
- Mathias：在蛋白质、基因序列等非文本模态的实际问题中，某些架构（如RNN）表现出比Transformer更强的性能扩展规律。同时，部署时的速度、硬件成本至关重要，架构将与硬件共同进化。
- Łukasz：他推崇困惑度作为核心指标，它本质是压缩指标，难以被超越。他建议创建一个商业化的、保密的困惑度基准测试集，供各实验室付费使用，以此驱动架构进步。
- Llion：困惑度是目前最佳方法，但基准测试容易被“攻破”（针对性优化），且高分不一定能泛化到其他任务。
- 关于上下文学习：Łukasz指出Transformer强大的上下文学习能力是其难以被击败的原因之一，它能在给定上下文内快速适应新任务。但他和Adrian都认为，需要更好的基准测试来衡量模型在长上下文、特别是从自身经验（而非外部数据）中持续学习的能力。

第五部分结语与观众问答精选 (开始时间53% - 结束时间92%)

最终结语：
- Łukasz Kaiser：重申Transformer目前仍占优，但欢迎看到更好的模型。再次强调创建保密困惑度基准测试的重要性。
- Adrian Kosowski：Transformer是为预训练硬件优化的架构。在推理占主导的未来，其是否仍是硬件利用的终极答案尚存疑问。他押注于更高效、更紧凑的推理方式。
- Mathias Lechner：他们的策略是双向押注，既改进Transformer，也研究后Transformer，探索一切可能性。
- Llion Jones：坚信存在更好的架构，因为Transformer在太多方面不如人脑。AI突破总会发生，当它来临时，世界将坚定地进入后Transformer时代。
观众提问精选：
- 硬件局限与创新：观众提问如何突破催生Transformer的硬件束缚（硬件彩票）。Llion承认这是困境，呼吁行业接受初期不完美的创新。Łukasz则认为，50倍的常数级劣势可以被更优的缩放曲线覆盖，硬件将随之改变，且如今AI能编写高性能CUDA代码，降低了创新门槛。
- 持续学习与静态权重：观众问及持续学习（动态神经网络）与Transformer静态权重的对比。Adrian认为，Transformer的前向传播激活在某种程度上模拟了反向传播的梯度下降，这或许就是其“学习”方式。Llion则认为，为动态权重从头设计的架构可能更优雅。Łukasz指出，Transformer的注意力权重本身就是动态的，其上下文学习能力已被低估。
- 潜在空间推理与安全：观众询问允许模型在潜在空间而非文本中推理是否会带来生存风险。Łukasz警告，Transformer的激活层已是包含大量不可知信息的“潜在空间”，当前文本输出的“忠实性”可能是一种假象。Llion则希望，更接近人脑工作原理的后Transformer架构可能反而更可解释、更安全。

第六部分活动收尾 (开始时间92% - 结束时间100%)

胜负判定：主持人通过观众欢呼声的分贝大小来判定胜负，最终后Transformer阵营获得了更高的声浪，象征性地赢得本场辩论。
活动结束：主持人感谢所有嘉宾和观众，宣布活动结束，并邀请观众与嘉宾继续交流。

DEV Community

Transformer vs. Post-Transformer：AI架构之巅的终极辩论

Top comments (0)