DEV Community

cognitalk
cognitalk

Posted on

翁荔Scaling Law博文解读


https://www.youtube.com/watch?v=o0Bl3zeDfJM

博客原文地址 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

先通俗易懂的解读这篇硬核博客 👇


🎯 一句话版

模型越大、数据越多、算得越久,AI 就越聪明——而且变好的速度和规模之间,大致遵循一条"幂律曲线"。

但到底"模型"和"数据"谁该先加大?这是整篇文章争论的核心。


🍳 用一个做菜类比

假设你在练一个超牛大厨(= 训练 AI):

  • 模型参数量 N = 厨师脑容量(记菜谱、技巧的能力)
  • 数据量 D = 你让他练过的菜品份数
  • 计算量 C = 总时间 + 灶台费(钱/电)

🔹 Kaplan(2020)说:

"脑子大的厨师,学得快,所以给同样预算,优先把脑容量搞大,少练几道菜也行。"

→ 结果:早期大模型都偏小数据量训练(后来发现——其实练少了)。


🔹 Chinchilla(2022)反驳:

"不对!脑子和练习题要一起加,模型翻倍,题也要翻倍,效果才最好。"

→ 用更小模型 + 多训 4 倍 token,干翻了更大的 Gopher。

现在业界共识基本倾向 Chinchilla:N ≈ D ∝ √C


📉 那什么叫"缩放定律(Scaling Law)"?

简单说就是:

你把 模型大小 / 数据量 / 算力 画成对数坐标

测试集上的错误率会近似沿一条直线往下降

就像这样感觉:

loss
 ↑
 |        /
 |      /
 |    /
 |__/___________ log(N) / log(D) / log(C)
Enter fullscreen mode Exit fullscreen mode

⚠️ 但注意:

  • 只是经验规律,不是物理定律
  • 外推容易翻车(拟合细节一变,预测差很多)

🔁 现实问题:好数据不够,要重复练?

现实中高质量文本有限,只能让模型反复看同一批数据

  • 稍微重复 → 还行
  • 大量重复 → 背答案(过拟合),泛化变差
  • 越大模型越怕重复数据

论文给了一些经验修正,但本质还是:

新数据 >> 旧数据多刷几遍


🪤 为什么容易算错?

拟合 scaling law 时这些都会坑你:

  • 算不算 embedding 参数?
  • loss 怎么取平均?
  • 学习率调度一变,曲线就歪
  • 用几个小模型外推 → 可能差一个数量级

所以文章警告:别盲目信一张拟合直线就决定花几百万美元训模型


✅ 最通俗总结

  • AI 越大 + 数据越多 → 越好,且较规律地变好(scaling law)
  • 模型和训练数据要同步放大(Chinchilla 观点胜出)
  • 重复刷旧数据有损,新数据最值钱
  • Scaling law 是经验工具,不是铁律,拟合要非常小心



博文详细要点内容

这篇 Lil'Log 博客文章《Scaling Laws, Carefully》系统性地梳理和批判性分析了深度学习尤其是大语言模型(LLM)中的神经缩放定律(Scaling Laws),并深入探讨了其拟合细节、Kaplan vs Chinchilla 之争、数据受限与重复训练下的修正,以及实践中拟合缩放定律的陷阱。

下面按文章结构给你做个中文要点总结:


一、什么是 Scaling Law(缩放定律)

  • 核心观察:训练损失 L 随模型参数量 N、数据量 D、计算量 C 增大,按幂律(power-law)下降,在对数坐标下呈直线。
  • 典型形式:L ∝ N^{-α}L ∝ D^{-β}L ∝ C^{-γ}
  • 早期理论铺垫:Amari (1992)、Hestness et al. (2017)、Rosenfeld et al. (2020) 已在图像/NMT 等任务上观察到类似规律。
  • 作用:用小规模实验拟合 → 外推预测大模型所需 token / compute。

二、Kaplan et al. (2020) — 早期 LLM Scaling Law

  • 针对 Transformer LM,发现 test cross-entropy loss 对 N(非 embedding)、D、C 均呈幂律。
  • 联合形式:L(N,D) = E + A/N^α + B/D^β
  • 关键结论(后被质疑):在固定 compute 预算下,N_opt ∝ C^0.73,即模型放大速度应快于数据 → 10x compute → ~5.5x 模型,~1.8x token。
  • 训练 FLOP 近似:C ≈ 6ND(forward 2N + backward 4N per token)。

三、Chinchilla / Hoffmann et al. (2022) — 推翻 Kaplan 的 compute-optimal 分配

  • 更系统的实验(70M–16B param,5B–500B tokens),三种独立方法得到一致结果。
  • 核心修正α ≈ β模型参数量 N 与训练 token 数 D 应按同等比例缩放(即 N ∝ D ∝ √C)。
  • 在同等 compute 下,比 Gopher 小 4x 但训练 4x 更多 token 的 Chinchilla (70B, 1.4T) 全面优于 Gopher (280B, 300B)。
  • Chinchilla 认为此前大模型普遍训练不足(undertrained)

四、为什么 Kaplan 和 Chinchilla 结果不同?

文章给出两个主要原因:

  1. 尺度差异:Kaplan 只用较小模型外推,对数-对数拟合微小偏差导致外推差距巨大。
  2. Embedding 参数是否计入
    • Kaplan 不计 embedding params,Chinchilla 计总数。
    • Pearce & Song (2024) 证明:小模型下 embedding 占比不可忽略,修正后在 Kaplan 的小模型区间可复现 ~0.73 指数;大尺度下收敛到 Chinchilla 的 ~0.5。

五、Scaling Law 为何是幂律?— 理论假说

  • 数据流形维度假说(Sharma & Kaplan 2020):模型将 d 维数据流形划分为 O(N) 区域 → 分辨率 ∝ N^{-1/d} → 幂律。
  • 知识量化假说(Michaud 2023, Brill 2024):技能按幂律分布被学会 → 平滑幂律衰减。
  • 还有其他解释(谱尾、核特征值、自然语言统计特性等),尚无统一理论。

六、数据受限 & 重复训练(Data-Constrained / Repeated Data)

真实场景高质量唯一 token 有限,常需多 epoch:

  • Hernandez et al. (2022):少量重复数据可出现 double-descent,重复损害 OOD 和微调。
  • Muennighoff et al. (2023, Data-Constrained Scaling)
    • 分解 D = U_D × (1+R_D),引入"有效数据" D',重复 token 价值按指数衰减(half-life 参数 r_D)。
    • 对称处理过大模型(excess params)→ N'
  • Lovelace et al. (2026)
    • 更大模型对重复数据更敏感 → 显式引入 overfitting penalty ∝ N / U_D × 重复次数
    • 强 weight decay 可缓解重复数据导致的过拟合。
  • 两者均为经验拟合,缺乏严格理论解释。

七、Scaling Law 拟合的实践陷阱

看似细节却严重影响外推:

  • 参数计数方式(含/不含 embedding)
  • Loss 平均方式、精度、四舍五入
  • 架构、LR schedule、batch schedule、数据混合、tokenizer 须保持一致
  • Besiroglu et al. (2024):重现 Chinchilla 时发现 Method 3 拟合对异常点敏感,细微处理会导致最优 N/D 偏移
  • 外推本质上脆弱——小拟合误差 → 大预测差异

八、一句话总结

这篇文章全面讲解了 LLM 缩放定律的形式与由来,重点对比 Kaplan(模型优先) vs Chinchilla(均衡 N≈D) 的分歧根源,并扩展到数据重复/受限场景下的修正模型,最后警示 scaling law 拟合与外推在实际操作中的高度敏感性。

如果你对某一部分(比如 Chinchilla 推导过程、重复数据修正公式、或如何自己拟合 scaling law)想深入,我可以单独展开讲。

Top comments (0)