cognitalk

Posted on Jun 8

Ineffable Intelligence -- RL ASI

#ai #enactiveai #reinforcelearning #podcast

https://www.youtube.com/watch?v=VD9zEKQEJxo
这视频深入拆解了人工智能强化学习之父、图灵奖得主理查德·萨顿（Richard Sutton）在2026年5月共同发表的一篇仅有7页、零算法、零跑分的哲学立场论文。这篇论文提出了“行动认知 AI”（Enactive Artificial Intelligence，简称 Enactive AI）的概念，并在科技界和资本圈引发了巨大震动（甚至让红杉、英伟达、谷歌联合下注了11亿美元成立新公司）。

视频从核心概念、哲学脉络、理论内在矛盾、认知科学质疑以及产业界的三路对赌五个维度，极其详细地复盘了视频的所有核心内容：

一、什么是“行动认知 AI”（Enactive AI）？

视频强调，全网很多地方都把 Enactive（行动认知/生成认知）和 Generative（生成式 AI，如 GPT、Sora）混淆了，但两者的底层逻辑恰恰相反 [00:50]：

生成式 AI（Generative AI）： 核心是续写和预测。通过已有画面或文本，被动地去预测下一帧、下一个词长什么样 [01:07]。
行动认知 AI（Enactive AI）： 核心是在互动中现生成认知。认知不是大脑被动接收信号并建立静态世界模型，而是“你动了手，世界才向你显现” [01:47]。 > 举例： 人去拿杯子，不是眼睛先拍下一张静态照片让大脑去死算距离、角度 [01:53]，而是手往前探的过程中，随着角度、光影的实时动态变化，杯子的形状和可抓取性才在动作里一点点“长出来” [01:59]。感知和行动硬死在一起，无法拆分。

这套理论源自认知科学中的自创生（Autopoiesis）与自主性（Autonomy） [02:21]。它认为智能体应该像生物一样自我维持、组织，由内在生存需求去塑造感知，而不是一个干等着外部指令输入输出的机器 [02:24]。

二、萨顿为什么要发这篇哲学论文？

萨顿并不是一时性起，这是他为了对抗当前“大模型路线”打出的最后一张哲学底牌：

2019年《苦涩的教训》： 主张人类手写规则干不过堆算力、让机器自己学的通用方法 [02:47]。
2024年《大世界假设》： 真实世界远比静态内部模型复杂，智能体必须在运行中实时学习 [02:59]。
2025年《经验时代》： 人类数据是有限的，AI 必须靠自己生成自己的经验长大的 [03:12]。
2025年9月： 直指整个 AI 行业走错路，大模型堆数据去超智是死路一条 [03:19]。

这篇论文补上了最后一把火： 之前的论证全是算力、数据和复杂度的“机械账” [03:25]。而这一次，他第一次把强化学习（RL）和认知科学（行动认知）接在了一起，从本体论层面证明：大模型路走不通，认识世界这件事本身，就只能通过行动和互动的经验来发生 [03:39]。

为此，2026年初论文共作者创办了 Ineffable Intelligence 公司，号称要造出完全不需要人类数据、靠自己学习的 AI，直接拿到了红杉、英伟达、谷歌 11 亿美元的巨额融资（估值 51 亿美元） [03:55]。

三、论文隐藏的两大致命致命逻辑“回旋镖”

视频话锋一转，指出萨顿借来的这套哲学地基里，埋着两根砸中他自己的“大柱子”：

柱子 1：砸中了萨顿的“奖励假设”（自相矛盾） [04:35]

强化学习的号称教条： 奖励假设（Reward Hypothesis），即所有目标、意图都可以写成“最大化外部给定的标量分数” [04:53]。David Silver 甚至喊出“奖励就够了” [05:13]。
行动认知哲学的教条： 自主性（Autonomy），即什么是好坏、成败，标准必须从智能体随时会散架的“物理组织和生存危机”中自发长出来，不能由外部权威操控 [05:27]。
裂缝： 标准强化学习的奖励函数（Reward Function）是人类设计者用代码硬塞进去的（他律） [05:55]；而生物判断好坏是为了顶住熵增、维持结构不崩（自主） [06:11]。论文里作者自己也承认：强化学习的评估标准依然由外部奖励定义 [06:38]。
内驱动机能救场吗？ 比如好奇心驱动或求知驱动。视频认为不能，因为诸如“优化预测误差”的总结优化目标，依然是人类在架构层死死规定好的，根本不是智能体出于生存忧关的自发需求。没有真正的生命威胁，就没真正的意义生成 [07:12]。

柱子 2：砸中了萨顿自己的《苦涩的教训》 [07:49]

萨顿当年痛骂：研究者总忍不住把人类以为的思考结构（比如语法树、手工特征检测器）硬塞进 AI 架构里，这长期必被碾压 [08:13]。
但 Enactiveness 偏偏是一套对认知组织要求极细的理论（要求感知与动作死死咬合、要求不存世界内部模型、要求把生态心理学、可供性焊进架构） [08:48]。
大模型主流社区认为这是一次哲学倒退：逼迫神经网络去遵守行动认知法则，和当年手工塞规则在本质上没有区别，这直接违反了他自己定的核心前提——“计算应该自由地去发现最优化表征” [09:25]。
替萨顿辩护的说法： 他规定的是学习的拓扑（原结构/脚手架），而非具体思考内容，让 AI 靠巨身重新学会一切，所以不算违背 [10:01]。但这依然无法平息质疑。

四、认知科学长达30年的老账

哪怕不聊 AI，这套哲学在解释人类认知时，自己就有两个卡了 30 年没解决的死结（向上扩展问题与耦合谬误） [11:21]：

向上扩展问题（Scaling-up Problem） [11:24]： 行动认知学派很擅长解释“第一阶的感觉运动”（比如乒乓球抽过来你本能去削球、婴儿走路） [11:27]，因为这全靠连续的身体物理耦合。但人类智能还有大量“离线的、抽象的”表征即用（Representation-hungry）任务 [11:51]，比如算微积分、写一句从未有人说过的话、规划明年夏天的旅行 [12:08]。当下一没有实物让你去碰去耦合，只能靠脑子里的“代号影子”去盘算。行动认知学派至今解释不了这种高级离线认知 [12:20]。
耦合谬误（Coupling-Constitution Fallacy） [13:20]： 哲学界举了“恒温器”的例子：里面的双金属片会随着周围空气温度的热胀冷缩而弯曲或变直。金属片和空气高度偶合 [13:29]。但空气是恒温器的一部分吗？不是，它只是感应对象。 萨顿他们把“智能体与世界的紧密耦合（因果绑定）”偷换成了“环境和身体直接构成了智能本身” [13:56]。事实上，AI 完全可以靠离线视频数据，把物理世界的动力学结构内化到大模型里（比如看一万段接球录像照样学会物理规律），实时感觉运动的偶合当场被切断，智能却照样产出 [14:55]。

五、产业界的现状：工程派正用“笨办法”在折衣服

在AI世界隔壁，写机器人的工程师们根本不关心这套行而上学的哲学，他们直接用最暴力的笨办法，把萨顿嘴里“行动感知不可分”的成果给造了出来 [15:21]：

VLM/VMA（视觉-语言-动作模型）： 如英伟达的 GR00T、谷歌的 Gemini Robotics。2026年顶会 ICLR 上此类模型投稿量从前一年的 9 篇暴涨 18 倍达到了 164 篇 [15:44]。
怎么实现的？ 压根不是靠自创生，也不是运行时一边干一边学。而是靠海量离线、真人遥控操作的物理真实数据（几千小时真人一帧帧标注的数据）喂进扩散 Transformer 里硬生生映射出来的 [16:15]。
按萨顿的严苛标准，这些 VMA 模型到今天为止都是“脱离身体的模式识别”，根本不算真正的巨身。但现实很讽刺：就是这帮“不算巨身”的东西，已经在工厂折衣服、分拣物流、在货架间穿梭了 [16:53]。
这把刀也是双刃的：VMA 成功的前提恰恰是需要真人身体在世界互动留下的物理数据，它证明了萨顿说的“必须有巨身互动经验数据”是对的，它只是不需要萨顿配套的那套实时自创生哲学壳子 [17:47]。

视频提到这在历史上演过一回：30 年前罗德尼·布鲁克斯（Rodney Brooks）提出过“无表征的智能”（包容架构），主张让智能砸在身体物理动力学里，结果在 2000 年代因为扩展不动，被机器学习按在地上摩擦 [18:23]。今天萨顿是想借用神经网络能扩展的本事，重新把这具身体给请回来 [19:27]。

六、总结：2020年代末的三张赌桌

视频最后总结，这场关于 AGI 的未来路线之争，最终演变成了科技界三大门派各自把话向死里说的商业对赌，并给出了见分晓的对赌年份 [21:23]：

赌桌门派	核心压注观点	失败的标志 / 见分晓年份
第一桌：萨顿 & Silver 派（行动认知 AI 派） [21:33]	静态数据规模化是死路。超智必须靠智能体在复杂的真实世界里，通过亲身经历和运行时持续学习来迭代，自我维持结构 [21:36]。	2028年如果他们是对的，届时传统大模型和 VMA 会在全新物理异场环境下当场抓瞎、撞上适宜性天花板；而他们路线的智能体会展现出碾压式的零样本小样本适应能力 [22:01]。
第二桌：OpenAI & 纯数字派（大模型/生成认知派） [22:21]	行动认知的批评是历史短视。大模型已经把世界知识编码进去了，物理体验根本不是什么底座，只是一层外在微调。光靠原始算力 + 合成仿生数据就能解决交互和高难物理任务 [22:26]。	2028年如果他们是对的，纯数字、靠预测下一个 Token 训练出的 AI 能完美解决高级巨身操作，甚至解决全新的数学证明，扎根巨身和生物自创生理论被彻底证伪 [22:42]。
第三桌：英伟达等工程派（机器人/硬件落地派） [23:02]	承认物理巨身必要，但彻底不认什么内在自主、持续学习。物理智能就是另一道统计性问题，扩散 Transformer + 海量离线数据就能解 [23:07]。	2030年如果工程派对，成功部署在无结构家庭/动态仓库里的机器人将完全跑在静态的、后训练好的模型上。本地自创生和实时生物学需求，会被云端中心化的整队更新彻底取代 [23:24]。

最终结论：
这篇论文是一记极具远见的警告，也是一张自相矛盾的蓝图 [24:27]。它把巨身认知重新拽回了强化学习社区，准确诊断出了生成式 AI 缺乏“扎根互动”的软肋，却没能在数学现实上完美自圆其说。这个答案不会在学术论文里炒出来，只会从 2020 年代末的商业落地战场上，一仗一仗真刀真枪地杀出来 [24:39]。

DEV Community

Ineffable Intelligence -- RL ASI

一、什么是“行动认知 AI”（Enactive AI）？

二、萨顿为什么要发这篇哲学论文？

三、论文隐藏的两大致命致命逻辑“回旋镖”

柱子 1：砸中了萨顿的“奖励假设”（自相矛盾） [04:35]

柱子 2：砸中了萨顿自己的《苦涩的教训》 [07:49]

四、认知科学长达30年的老账

五、产业界的现状：工程派正用“笨办法”在折衣服

六、总结：2020年代末的三张赌桌

Top comments (0)

一、 什么是“行动认知 AI”（Enactive AI）？

二、 萨顿为什么要发这篇哲学论文？

三、 论文隐藏的两大致命致命逻辑“回旋镖”

柱子 1：砸中了萨顿的“奖励假设”（自相矛盾） [04:35]

柱子 2：砸中了萨顿自己的《苦涩的教训》 [07:49]

四、 认知科学长达30年的老账

五、 产业界的现状：工程派正用“笨办法”在折衣服

六、 总结：2020年代末的三张赌桌

一、什么是“行动认知 AI”（Enactive AI）？

二、萨顿为什么要发这篇哲学论文？

三、论文隐藏的两大致命致命逻辑“回旋镖”

四、认知科学长达30年的老账

五、产业界的现状：工程派正用“笨办法”在折衣服

六、总结：2020年代末的三张赌桌