Skip to content

DEV Community

cognitalk

Posted on Jun 12

Transformers 中的涌现类比推理

#ai #algorithms #scalinglaw #align

http://www.youtube.com/watch?v=y6pfgiTjHXQ
这段视频详细讨论了 AI 行业当前面临的核心危机：“缩放定律”（Scaling Law）可能正在失效，大语言模型即将撞上技术瓶颈。 以下是视频内容的完整且详细的拆解：

1. 核心危机：缩放定律的破灭

过去的共识： 过去三年里，整个 AI 行业（OpenAI、谷歌、Anthropic、xAI 等）都建立在一个核心信念上——把模型做大、加入更多参数、喂更多数据、投入更多算力，模型就会自动变得更聪明 00:00。这也是数千亿美元投资涌入 AI 领域的根基。
颠覆性的新研究： arXiv 上发表了一篇名为《Transformers 中的涌现类比推理》（Emerging Analogical Reasoning in Transformers）的全新研究论文 00:44。研究表明，在人类最重要的思维方式之一——类比推理（理解两件事的关系，并将这种关系应用到全新事物上）上，把模型做大并不能让它更聪明，有时甚至会让它变得更差 00:28。

2. 论文的实验与发现

实验设计： 研究人员在一个完全由他们发明、变量完全可控的“虚构世界”中，从零开始训练了一系列小型 AI 模型，并逐步放大它们的规模（调整宽度、深度、数据量等参数）来观察其类比推理能力 01:21。
反常的结果： * 小型模型无法进行类比推理（符合预期）01:51。
中型模型表现最好 01:51。
当模型进一步放大到大型时，性能反而下降了 01:51。
论文直接指出：“增加模型大小并不能单调地提高性能，在某些情况下甚至会降低性能。” 02:03
在真实大模型中的验证： 研究人员在谷歌的 Gemma 2（2B 和 9B 版本）以及 Meta 的 Llama 模型上进行了同样的测试，结果发现了相同的模式：更大的模型在类比推理上并没有更可靠，尺寸并非决定性因素 05:00。

3. 决定 AI 变聪明的真正核心：“几何对齐”

论文指出，决定模型是否具备类比推理能力的，不是它的容量（大小），而是它在训练过程中是否形成了一种特定的内部结构，被称为“几何对齐”（Geometric Alignment） 05:21。
这意味着模型需要在其内部的向量嵌入空间（Embedding Space）中，以一种非常特定的方式组织概念地图 05:27。
不确定性： 这种结构的形成无法通过单纯增加算力和钱来保证，它取决于数据质量、训练集中的关系数量以及优化设置 08:47。
转瞬即逝的现象（Transient Behavior）： 研究人员甚至发现，有些模型在训练过程中一度学会了类比推理，但随着训练继续进行，这种能力居然在同一次训练中再次衰退并消失了。这彻底违背了“越缩放越聪明”的传统认知 08:52。

4. 整个 AI 行业的集体撞墙

视频指出，这篇论文并不是孤立的，整个行业其实已经在私底下“撞墙”一年了：

行业大佬的警告： OpenAI 前首席科学家 Ilya Sutskever 已经在公开演讲中表示“缩放的时代已经结束” 06:02。他提到，互联网上所有有用的公开数据基本上都已经被几大实验室用光了。AI 发展正在从“缩放时代”回归到“研究时代” 06:08。
传统规则失效： 2026 年 5 月的另一篇论文指出，著名的 Chinchilla 定律（用于平衡模型大小和训练数据的规则）对前沿实验室已经失效，因为该定律赖以生存的假设——“互联网上有无限的独特数据”——已经破灭 06:55。
中国实验室的冲击： 以 DeepSeek 为代表的中国新兴实验室通过 DeepSeek R1 证明了，无需一味追求大模型，通过更聪明的训练方法（如强化学习、更好的架构），可以用几分之一的算力达到前沿水平 07:12。这让投资者开始质疑美国大实验室数百亿纯烧算力的计划是否合理 07:24。

5. 巨头们的秘密转型与未来财务风险

技术路线的秘密转移： 虽然巨头们的营销口号仍在吹嘘“更大、更新的版本”，但幕后的研究重心早已转移 10:17。OpenAI（如 o1/o3 系列）、谷歌（Gemini 推理模型）和 Anthropic 都在大力转向“推理时算力”（Inference-time compute）——即让模型在回答问题时“思考”得更久，而不是一味依靠更大的基础模型 09:32。
未来两年的赢家： 未来的 AI 竞赛不再是谁花最多钱买最多芯片升级模型，而是谁能提高数据质量、做好后训练（Post-training），以及让模型在回答时更有效率地推理 09:54。
金融与资本市场的恐慌： 英伟达、微软、谷歌和 Meta 等巨头的股价，全都是建立在“缩放定律将持续有效”的假设之上的 10:32。2026 年大型科技公司在 AI 基础设施上的投入预计将达到 7250 亿美元 08:12。一旦市场确信缩放定律存在硬性边界，且无法通过砸钱解决，整个科技股的估值逻辑将遭到严重质疑 10:39。

总结来说：
AI 并不是停止进步了，而是“大力出奇迹”的野蛮生长阶段正式宣告结束 11:18。下半场的胜利属于那些精耕细作、能让模型内部产生精妙结构的设计者；而那些依然盲目追逐“规模神话”的实验室，恐怕会给他们的投资者带来一个非常残酷的结局 11:29。

Top comments (0)

Subscribe