https://www.youtube.com/watch?v=VD9zEKQEJxo
这视频深入拆解了人工智能强化学习之父、图灵奖得主理查德·萨顿(Richard Sutton)在2026年5月共同发表的一篇仅有7页、零算法、零跑分的哲学立场论文。这篇论文提出了“行动认知 AI”(Enactive Artificial Intelligence,简称 Enactive AI)的概念,并在科技界和资本圈引发了巨大震动(甚至让红杉、英伟达、谷歌联合下注了11亿美元成立新公司)。
视频从核心概念、哲学脉络、理论内在矛盾、认知科学质疑以及产业界的三路对赌五个维度,极其详细地复盘了视频的所有核心内容:
一、 什么是“行动认知 AI”(Enactive AI)?
视频强调,全网很多地方都把 Enactive(行动认知/生成认知)和 Generative(生成式 AI,如 GPT、Sora)混淆了,但两者的底层逻辑恰恰相反 [00:50]:
- 生成式 AI(Generative AI): 核心是续写和预测。通过已有画面或文本,被动地去预测下一帧、下一个词长什么样 [01:07]。
- 行动认知 AI(Enactive AI): 核心是在互动中现生成认知。认知不是大脑被动接收信号并建立静态世界模型,而是“你动了手,世界才向你显现” [01:47]。 > 举例: 人去拿杯子,不是眼睛先拍下一张静态照片让大脑去死算距离、角度 [01:53],而是手往前探的过程中,随着角度、光影的实时动态变化,杯子的形状和可抓取性才在动作里一点点“长出来” [01:59]。感知和行动硬死在一起,无法拆分。
这套理论源自认知科学中的自创生(Autopoiesis)与自主性(Autonomy) [02:21]。它认为智能体应该像生物一样自我维持、组织,由内在生存需求去塑造感知,而不是一个干等着外部指令输入输出的机器 [02:24]。
二、 萨顿为什么要发这篇哲学论文?
萨顿并不是一时性起,这是他为了对抗当前“大模型路线”打出的最后一张哲学底牌:
- 2019年《苦涩的教训》: 主张人类手写规则干不过堆算力、让机器自己学的通用方法 [02:47]。
- 2024年《大世界假设》: 真实世界远比静态内部模型复杂,智能体必须在运行中实时学习 [02:59]。
- 2025年《经验时代》: 人类数据是有限的,AI 必须靠自己生成自己的经验长大的 [03:12]。
- 2025年9月: 直指整个 AI 行业走错路,大模型堆数据去超智是死路一条 [03:19]。
这篇论文补上了最后一把火: 之前的论证全是算力、数据和复杂度的“机械账” [03:25]。而这一次,他第一次把强化学习(RL)和认知科学(行动认知)接在了一起,从本体论层面证明:大模型路走不通,认识世界这件事本身,就只能通过行动和互动的经验来发生 [03:39]。
为此,2026年初论文共作者创办了 Ineffable Intelligence 公司,号称要造出完全不需要人类数据、靠自己学习的 AI,直接拿到了红杉、英伟达、谷歌 11 亿美元的巨额融资(估值 51 亿美元) [03:55]。
三、 论文隐藏的两大致命致命逻辑“回旋镖”
视频话锋一转,指出萨顿借来的这套哲学地基里,埋着两根砸中他自己的“大柱子”:
柱子 1:砸中了萨顿的“奖励假设”(自相矛盾) [04:35]
- 强化学习的号称教条: 奖励假设(Reward Hypothesis),即所有目标、意图都可以写成“最大化外部给定的标量分数” [04:53]。David Silver 甚至喊出“奖励就够了” [05:13]。
- 行动认知哲学的教条: 自主性(Autonomy),即什么是好坏、成败,标准必须从智能体随时会散架的“物理组织和生存危机”中自发长出来,不能由外部权威操控 [05:27]。
- 裂缝: 标准强化学习的奖励函数(Reward Function)是人类设计者用代码硬塞进去的(他律) [05:55];而生物判断好坏是为了顶住熵增、维持结构不崩(自主) [06:11]。论文里作者自己也承认:强化学习的评估标准依然由外部奖励定义 [06:38]。
- 内驱动机能救场吗? 比如好奇心驱动或求知驱动。视频认为不能,因为诸如“优化预测误差”的总结优化目标,依然是人类在架构层死死规定好的,根本不是智能体出于生存忧关的自发需求。没有真正的生命威胁,就没真正的意义生成 [07:12]。
柱子 2:砸中了萨顿自己的《苦涩的教训》 [07:49]
- 萨顿当年痛骂:研究者总忍不住把人类以为的思考结构(比如语法树、手工特征检测器)硬塞进 AI 架构里,这长期必被碾压 [08:13]。
- 但
Enactiveness偏偏是一套对认知组织要求极细的理论(要求感知与动作死死咬合、要求不存世界内部模型、要求把生态心理学、可供性焊进架构) [08:48]。 - 大模型主流社区认为这是一次哲学倒退:逼迫神经网络去遵守行动认知法则,和当年手工塞规则在本质上没有区别,这直接违反了他自己定的核心前提——“计算应该自由地去发现最优化表征” [09:25]。
- 替萨顿辩护的说法: 他规定的是学习的拓扑(原结构/脚手架),而非具体思考内容,让 AI 靠巨身重新学会一切,所以不算违背 [10:01]。但这依然无法平息质疑。
四、 认知科学长达30年的老账
哪怕不聊 AI,这套哲学在解释人类认知时,自己就有两个卡了 30 年没解决的死结(向上扩展问题与耦合谬误) [11:21]:
- 向上扩展问题(Scaling-up Problem) [11:24]: 行动认知学派很擅长解释“第一阶的感觉运动”(比如乒乓球抽过来你本能去削球、婴儿走路) [11:27],因为这全靠连续的身体物理耦合。但人类智能还有大量“离线的、抽象的”表征即用(Representation-hungry)任务 [11:51],比如算微积分、写一句从未有人说过的话、规划明年夏天的旅行 [12:08]。当下一没有实物让你去碰去耦合,只能靠脑子里的“代号影子”去盘算。行动认知学派至今解释不了这种高级离线认知 [12:20]。
- 耦合谬误(Coupling-Constitution Fallacy) [13:20]: 哲学界举了“恒温器”的例子:里面的双金属片会随着周围空气温度的热胀冷缩而弯曲或变直。金属片和空气高度偶合 [13:29]。但空气是恒温器的一部分吗?不是,它只是感应对象。 萨顿他们把“智能体与世界的紧密耦合(因果绑定)”偷换成了“环境和身体直接构成了智能本身” [13:56]。 事实上,AI 完全可以靠离线视频数据,把物理世界的动力学结构内化到大模型里(比如看一万段接球录像照样学会物理规律),实时感觉运动的偶合当场被切断,智能却照样产出 [14:55]。
五、 产业界的现状:工程派正用“笨办法”在折衣服
在AI世界隔壁,写机器人的工程师们根本不关心这套行而上学的哲学,他们直接用最暴力的笨办法,把萨顿嘴里“行动感知不可分”的成果给造了出来 [15:21]:
- VLM/VMA(视觉-语言-动作模型): 如英伟达的 GR00T、谷歌的 Gemini Robotics。2026年顶会 ICLR 上此类模型投稿量从前一年的 9 篇暴涨 18 倍达到了 164 篇 [15:44]。
- 怎么实现的? 压根不是靠自创生,也不是运行时一边干一边学。而是靠海量离线、真人遥控操作的物理真实数据(几千小时真人一帧帧标注的数据)喂进扩散 Transformer 里硬生生映射出来的 [16:15]。
- 按萨顿的严苛标准,这些 VMA 模型到今天为止都是“脱离身体的模式识别”,根本不算真正的巨身。但现实很讽刺:就是这帮“不算巨身”的东西,已经在工厂折衣服、分拣物流、在货架间穿梭了 [16:53]。
- 这把刀也是双刃的:VMA 成功的前提恰恰是需要真人身体在世界互动留下的物理数据,它证明了萨顿说的“必须有巨身互动经验数据”是对的,它只是不需要萨顿配套的那套实时自创生哲学壳子 [17:47]。
视频提到这在历史上演过一回:30 年前罗德尼·布鲁克斯(Rodney Brooks)提出过“无表征的智能”(包容架构),主张让智能砸在身体物理动力学里,结果在 2000 年代因为扩展不动,被机器学习按在地上摩擦 [18:23]。今天萨顿是想借用神经网络能扩展的本事,重新把这具身体给请回来 [19:27]。
六、 总结:2020年代末的三张赌桌
视频最后总结,这场关于 AGI 的未来路线之争,最终演变成了科技界三大门派各自把话向死里说的商业对赌,并给出了见分晓的对赌年份 [21:23]:
| 赌桌门派 | 核心压注观点 | 失败的标志 / 见分晓年份 |
|---|---|---|
|
第一桌:萨顿 & Silver 派 (行动认知 AI 派) [21:33] |
静态数据规模化是死路。超智必须靠智能体在复杂的真实世界里,通过亲身经历和运行时持续学习来迭代,自我维持结构 [21:36]。 |
2028年 如果他们是对的,届时传统大模型和 VMA 会在全新物理异场环境下当场抓瞎、撞上适宜性天花板;而他们路线的智能体会展现出碾压式的零样本小样本适应能力 [22:01]。 |
|
第二桌:OpenAI & 纯数字派 (大模型/生成认知派) [22:21] |
行动认知的批评是历史短视。大模型已经把世界知识编码进去了,物理体验根本不是什么底座,只是一层外在微调。光靠原始算力 + 合成仿生数据就能解决交互和高难物理任务 [22:26]。 |
2028年 如果他们是对的,纯数字、靠预测下一个 Token 训练出的 AI 能完美解决高级巨身操作,甚至解决全新的数学证明,扎根巨身和生物自创生理论被彻底证伪 [22:42]。 |
|
第三桌:英伟达等工程派 (机器人/硬件落地派) [23:02] |
承认物理巨身必要,但彻底不认什么内在自主、持续学习。物理智能就是另一道统计性问题,扩散 Transformer + 海量离线数据就能解 [23:07]。 |
2030年 如果工程派对,成功部署在无结构家庭/动态仓库里的机器人将完全跑在静态的、后训练好的模型上。本地自创生和实时生物学需求,会被云端中心化的整队更新彻底取代 [23:24]。 |
最终结论:
这篇论文是一记极具远见的警告,也是一张自相矛盾的蓝图 [24:27]。它把巨身认知重新拽回了强化学习社区,准确诊断出了生成式 AI 缺乏“扎根互动”的软肋,却没能在数学现实上完美自圆其说。这个答案不会在学术论文里炒出来,只会从 2020 年代末的商业落地战场上,一仗一仗真刀真枪地杀出来 [24:39]。
Top comments (0)