https://www.youtube.com/watch?v=o0Bl3zeDfJM
博客原文地址 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
先通俗易懂的解读这篇硬核博客 👇
🎯 一句话版
模型越大、数据越多、算得越久,AI 就越聪明——而且变好的速度和规模之间,大致遵循一条"幂律曲线"。
但到底"模型"和"数据"谁该先加大?这是整篇文章争论的核心。
🍳 用一个做菜类比
假设你在练一个超牛大厨(= 训练 AI):
- 模型参数量 N = 厨师脑容量(记菜谱、技巧的能力)
- 数据量 D = 你让他练过的菜品份数
- 计算量 C = 总时间 + 灶台费(钱/电)
🔹 Kaplan(2020)说:
"脑子大的厨师,学得快,所以给同样预算,优先把脑容量搞大,少练几道菜也行。"
→ 结果:早期大模型都偏小数据量训练(后来发现——其实练少了)。
🔹 Chinchilla(2022)反驳:
"不对!脑子和练习题要一起加,模型翻倍,题也要翻倍,效果才最好。"
→ 用更小模型 + 多训 4 倍 token,干翻了更大的 Gopher。
→ 现在业界共识基本倾向 Chinchilla:N ≈ D ∝ √C
📉 那什么叫"缩放定律(Scaling Law)"?
简单说就是:
你把 模型大小 / 数据量 / 算力 画成对数坐标
→ 测试集上的错误率会近似沿一条直线往下降
就像这样感觉:
loss
↑
| /
| /
| /
|__/___________ log(N) / log(D) / log(C)
⚠️ 但注意:
- 只是经验规律,不是物理定律
- 外推容易翻车(拟合细节一变,预测差很多)
🔁 现实问题:好数据不够,要重复练?
现实中高质量文本有限,只能让模型反复看同一批数据:
- 稍微重复 → 还行
- 大量重复 → 背答案(过拟合),泛化变差
- 越大模型越怕重复数据
论文给了一些经验修正,但本质还是:
新数据 >> 旧数据多刷几遍
🪤 为什么容易算错?
拟合 scaling law 时这些都会坑你:
- 算不算 embedding 参数?
- loss 怎么取平均?
- 学习率调度一变,曲线就歪
- 用几个小模型外推 → 可能差一个数量级
所以文章警告:别盲目信一张拟合直线就决定花几百万美元训模型。
✅ 最通俗总结
- AI 越大 + 数据越多 → 越好,且较规律地变好(scaling law)
- 模型和训练数据要同步放大(Chinchilla 观点胜出)
- 重复刷旧数据有损,新数据最值钱
- Scaling law 是经验工具,不是铁律,拟合要非常小心
博文详细要点内容
这篇 Lil'Log 博客文章《Scaling Laws, Carefully》系统性地梳理和批判性分析了深度学习尤其是大语言模型(LLM)中的神经缩放定律(Scaling Laws),并深入探讨了其拟合细节、Kaplan vs Chinchilla 之争、数据受限与重复训练下的修正,以及实践中拟合缩放定律的陷阱。
下面按文章结构给你做个中文要点总结:
一、什么是 Scaling Law(缩放定律)
- 核心观察:训练损失 L 随模型参数量 N、数据量 D、计算量 C 增大,按幂律(power-law)下降,在对数坐标下呈直线。
- 典型形式:
L ∝ N^{-α}、L ∝ D^{-β}、L ∝ C^{-γ} - 早期理论铺垫:Amari (1992)、Hestness et al. (2017)、Rosenfeld et al. (2020) 已在图像/NMT 等任务上观察到类似规律。
- 作用:用小规模实验拟合 → 外推预测大模型所需 token / compute。
二、Kaplan et al. (2020) — 早期 LLM Scaling Law
- 针对 Transformer LM,发现 test cross-entropy loss 对 N(非 embedding)、D、C 均呈幂律。
- 联合形式:
L(N,D) = E + A/N^α + B/D^β -
关键结论(后被质疑):在固定 compute 预算下,
N_opt ∝ C^0.73,即模型放大速度应快于数据 → 10x compute → ~5.5x 模型,~1.8x token。 - 训练 FLOP 近似:
C ≈ 6ND(forward 2N + backward 4N per token)。
三、Chinchilla / Hoffmann et al. (2022) — 推翻 Kaplan 的 compute-optimal 分配
- 更系统的实验(70M–16B param,5B–500B tokens),三种独立方法得到一致结果。
-
核心修正:
α ≈ β→ 模型参数量 N 与训练 token 数 D 应按同等比例缩放(即 N ∝ D ∝ √C)。 - 在同等 compute 下,比 Gopher 小 4x 但训练 4x 更多 token 的 Chinchilla (70B, 1.4T) 全面优于 Gopher (280B, 300B)。
- Chinchilla 认为此前大模型普遍训练不足(undertrained)。
四、为什么 Kaplan 和 Chinchilla 结果不同?
文章给出两个主要原因:
- 尺度差异:Kaplan 只用较小模型外推,对数-对数拟合微小偏差导致外推差距巨大。
-
Embedding 参数是否计入:
- Kaplan 不计 embedding params,Chinchilla 计总数。
- Pearce & Song (2024) 证明:小模型下 embedding 占比不可忽略,修正后在 Kaplan 的小模型区间可复现 ~0.73 指数;大尺度下收敛到 Chinchilla 的 ~0.5。
五、Scaling Law 为何是幂律?— 理论假说
- 数据流形维度假说(Sharma & Kaplan 2020):模型将 d 维数据流形划分为 O(N) 区域 → 分辨率 ∝ N^{-1/d} → 幂律。
- 知识量化假说(Michaud 2023, Brill 2024):技能按幂律分布被学会 → 平滑幂律衰减。
- 还有其他解释(谱尾、核特征值、自然语言统计特性等),尚无统一理论。
六、数据受限 & 重复训练(Data-Constrained / Repeated Data)
真实场景高质量唯一 token 有限,常需多 epoch:
- Hernandez et al. (2022):少量重复数据可出现 double-descent,重复损害 OOD 和微调。
-
Muennighoff et al. (2023, Data-Constrained Scaling):
- 分解
D = U_D × (1+R_D),引入"有效数据"D',重复 token 价值按指数衰减(half-life 参数r_D)。 - 对称处理过大模型(excess params)→
N'。
- 分解
-
Lovelace et al. (2026):
- 更大模型对重复数据更敏感 → 显式引入 overfitting penalty ∝ N / U_D × 重复次数。
- 强 weight decay 可缓解重复数据导致的过拟合。
- 两者均为经验拟合,缺乏严格理论解释。
七、Scaling Law 拟合的实践陷阱
看似细节却严重影响外推:
- 参数计数方式(含/不含 embedding)
- Loss 平均方式、精度、四舍五入
- 架构、LR schedule、batch schedule、数据混合、tokenizer 须保持一致
- Besiroglu et al. (2024):重现 Chinchilla 时发现 Method 3 拟合对异常点敏感,细微处理会导致最优 N/D 偏移
- 外推本质上脆弱——小拟合误差 → 大预测差异
八、一句话总结
这篇文章全面讲解了 LLM 缩放定律的形式与由来,重点对比 Kaplan(模型优先) vs Chinchilla(均衡 N≈D) 的分歧根源,并扩展到数据重复/受限场景下的修正模型,最后警示 scaling law 拟合与外推在实际操作中的高度敏感性。
如果你对某一部分(比如 Chinchilla 推导过程、重复数据修正公式、或如何自己拟合 scaling law)想深入,我可以单独展开讲。
Top comments (0)