cognitalk

Posted on Jul 2

翁荔Scaling Law博文解读

#machinelearning #ai #llm #deeplearning

https://www.youtube.com/watch?v=o0Bl3zeDfJM

博客原文地址 https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

先通俗易懂的解读这篇硬核博客 👇

🎯 一句话版

模型越大、数据越多、算得越久，AI 就越聪明——而且变好的速度和规模之间，大致遵循一条"幂律曲线"。

但到底"模型"和"数据"谁该先加大？这是整篇文章争论的核心。

🍳 用一个做菜类比

假设你在练一个超牛大厨（= 训练 AI）：

模型参数量 N = 厨师脑容量（记菜谱、技巧的能力）
数据量 D = 你让他练过的菜品份数
计算量 C = 总时间 + 灶台费（钱/电）

🔹 Kaplan（2020）说：

"脑子大的厨师，学得快，所以给同样预算，优先把脑容量搞大，少练几道菜也行。"

→ 结果：早期大模型都偏小数据量训练（后来发现——其实练少了）。

🔹 Chinchilla（2022）反驳：

"不对！脑子和练习题要一起加，模型翻倍，题也要翻倍，效果才最好。"

→ 用更小模型 + 多训 4 倍 token，干翻了更大的 Gopher。

→ 现在业界共识基本倾向 Chinchilla：N ≈ D ∝ √C

📉 那什么叫"缩放定律（Scaling Law）"？

简单说就是：

你把 模型大小 / 数据量 / 算力 画成对数坐标

→ 测试集上的错误率会近似沿一条直线往下降

就像这样感觉：

loss
 ↑
 |        /
 |      /
 |    /
 |__/___________ log(N) / log(D) / log(C)

⚠️ 但注意：

只是经验规律，不是物理定律
外推容易翻车（拟合细节一变，预测差很多）

🔁 现实问题：好数据不够，要重复练？

现实中高质量文本有限，只能让模型反复看同一批数据：

稍微重复 → 还行
大量重复 → 背答案（过拟合），泛化变差
越大模型越怕重复数据

论文给了一些经验修正，但本质还是：

新数据 >> 旧数据多刷几遍

🪤 为什么容易算错？

拟合 scaling law 时这些都会坑你：

算不算 embedding 参数？
loss 怎么取平均？
学习率调度一变，曲线就歪
用几个小模型外推 → 可能差一个数量级

所以文章警告：别盲目信一张拟合直线就决定花几百万美元训模型。

✅ 最通俗总结

AI 越大 + 数据越多 → 越好，且较规律地变好（scaling law）

模型和训练数据要同步放大（Chinchilla 观点胜出）

重复刷旧数据有损，新数据最值钱

Scaling law 是经验工具，不是铁律，拟合要非常小心

博文详细要点内容

这篇 Lil'Log 博客文章《Scaling Laws, Carefully》系统性地梳理和批判性分析了深度学习尤其是大语言模型（LLM）中的神经缩放定律（Scaling Laws），并深入探讨了其拟合细节、Kaplan vs Chinchilla 之争、数据受限与重复训练下的修正，以及实践中拟合缩放定律的陷阱。

下面按文章结构给你做个中文要点总结：

一、什么是 Scaling Law（缩放定律）

核心观察：训练损失 L 随模型参数量 N、数据量 D、计算量 C 增大，按幂律（power-law）下降，在对数坐标下呈直线。
典型形式：L ∝ N^{-α}、L ∝ D^{-β}、L ∝ C^{-γ}
早期理论铺垫：Amari (1992)、Hestness et al. (2017)、Rosenfeld et al. (2020) 已在图像/NMT 等任务上观察到类似规律。
作用：用小规模实验拟合 → 外推预测大模型所需 token / compute。

二、Kaplan et al. (2020) — 早期 LLM Scaling Law

针对 Transformer LM，发现 test cross-entropy loss 对 N（非 embedding）、D、C 均呈幂律。
联合形式：L(N,D) = E + A/N^α + B/D^β
关键结论（后被质疑）：在固定 compute 预算下，N_opt ∝ C^0.73，即模型放大速度应快于数据 → 10x compute → ~5.5x 模型，~1.8x token。
训练 FLOP 近似：C ≈ 6ND（forward 2N + backward 4N per token）。

三、Chinchilla / Hoffmann et al. (2022) — 推翻 Kaplan 的 compute-optimal 分配

更系统的实验（70M–16B param，5B–500B tokens），三种独立方法得到一致结果。
核心修正：α ≈ β → 模型参数量 N 与训练 token 数 D 应按同等比例缩放（即 N ∝ D ∝ √C）。
在同等 compute 下，比 Gopher 小 4x 但训练 4x 更多 token 的 Chinchilla (70B, 1.4T) 全面优于 Gopher (280B, 300B)。
Chinchilla 认为此前大模型普遍训练不足（undertrained）。

四、为什么 Kaplan 和 Chinchilla 结果不同？

文章给出两个主要原因：

尺度差异：Kaplan 只用较小模型外推，对数-对数拟合微小偏差导致外推差距巨大。
Embedding 参数是否计入：
- Kaplan 不计 embedding params，Chinchilla 计总数。
- Pearce & Song (2024) 证明：小模型下 embedding 占比不可忽略，修正后在 Kaplan 的小模型区间可复现 ~0.73 指数；大尺度下收敛到 Chinchilla 的 ~0.5。

五、Scaling Law 为何是幂律？— 理论假说

数据流形维度假说（Sharma & Kaplan 2020）：模型将 d 维数据流形划分为 O(N) 区域 → 分辨率 ∝ N^{-1/d} → 幂律。
知识量化假说（Michaud 2023, Brill 2024）：技能按幂律分布被学会 → 平滑幂律衰减。
还有其他解释（谱尾、核特征值、自然语言统计特性等），尚无统一理论。

六、数据受限 & 重复训练（Data-Constrained / Repeated Data）

真实场景高质量唯一 token 有限，常需多 epoch：

Hernandez et al. (2022)：少量重复数据可出现 double-descent，重复损害 OOD 和微调。
Muennighoff et al. (2023, Data-Constrained Scaling)：
- 分解 D = U_D × (1+R_D)，引入"有效数据" D'，重复 token 价值按指数衰减（half-life 参数 r_D）。
- 对称处理过大模型（excess params）→ N'。
Lovelace et al. (2026)：
- 更大模型对重复数据更敏感 → 显式引入 overfitting penalty ∝ N / U_D × 重复次数。
- 强 weight decay 可缓解重复数据导致的过拟合。
两者均为经验拟合，缺乏严格理论解释。

七、Scaling Law 拟合的实践陷阱

看似细节却严重影响外推：

参数计数方式（含/不含 embedding）
Loss 平均方式、精度、四舍五入
架构、LR schedule、batch schedule、数据混合、tokenizer 须保持一致
Besiroglu et al. (2024)：重现 Chinchilla 时发现 Method 3 拟合对异常点敏感，细微处理会导致最优 N/D 偏移
外推本质上脆弱——小拟合误差 → 大预测差异

八、一句话总结

这篇文章全面讲解了 LLM 缩放定律的形式与由来，重点对比 Kaplan(模型优先) vs Chinchilla(均衡 N≈D) 的分歧根源，并扩展到数据重复/受限场景下的修正模型，最后警示 scaling law 拟合与外推在实际操作中的高度敏感性。

如果你对某一部分（比如 Chinchilla 推导过程、重复数据修正公式、或如何自己拟合 scaling law）想深入，我可以单独展开讲。

DEV Community