目录

Summary: Training Compute-Optimal Large Language Models

yewentao 收录于类别 Paper_summary

2025-06-22 2025-08-24 约 1409 字预计阅读 7 分钟

目录

本博客使用O3翻译，如有冲突请优先参考英文原文

0. Materials

Paper

1. 论文研究内容

探讨在固定训练计算预算（FLOPs）下，如何在模型参数数量 N 与训练标记数 D 之间进行最优分配。
推导出新的 计算最优缩放定律：若总计算量为 C，则 参数量和训练标记数应当近似按 $C^{0.5}$ 同比例增长，颠覆早期“以参数为主”的方案。
通过实证验证该定律，并训练出 Chinchilla（70 B 参数，1.4 T 标记），在相同 FLOPs 下优于更大的模型（Gopher 280 B、GPT-3 175 B、MT-NLG 530 B）。

2. 相较于前人工作的创新点

提出 参数数 : 训练标记数 ≈ 1 : 1 的新缩放规则，取代 Kaplan 等（2020）的 “参数偏重” 规则（$N∝C^{0.73}, D∝C^{0.27}$）。
引入三种互补方法——训练曲线包络（training-curve envelope）、等 FLOP 谷（IsoFLOP valleys） 以及 参数化损失拟合——直接从数据中估计计算效率前沿。

3. 支撑论点的实验

进行 400 余次预训练，覆盖 70 M→16 B 参数、5 B→500 B 标记，绘制损失-计算量曲面。
构建训练曲线包络以获得每 FLOP 的最小损失，并用 IsoFLOP 曲线在固定计算量下寻找损失最小点。
将损失拟合为 Loss ≈ E + A/N^α + B/D^β，得到闭式最优解（α≈0.54，β≈0.46）。
整预算训练 Chinchilla（与 Gopher 同为 5.76×10²³ FLOPs），并在下列基准上同场对比：
- The Pile bits-per-byte、WikiText103 困惑度
- MMLU（较 Gopher 提升 7.6 个百分点）
- BIG-bench（提升 10.7 个百分点）
- 阅读理解（RACE、LAMBADA）、闭卷问答（Natural Questions、TriviaQA）
进行偏见与毒性检测（Winogender、PerspectiveAPI），未见对 Gopher 的不良反弹。

4. 局限性

仅有两条整预算训练（Gopher 与 Chinchilla）；缺少中间规模的完整验证。
假设的幂律在极端计算量处可能略显凹形，暗示最优模型或许更小。
所有实验都在语料上 <1 个 epoch，多轮遍历的行为尚未验证。
Chinchilla 见到 4 倍数据，可能带来 训练-测试泄漏，从而抬高基准分数。

5. 可行的下一步工作

收集并清洗更大、质量更高的语料（数万亿标记），在避免泄漏的前提下测试缩放定律并研究数据质量影响。
在中间计算规模进行更多等 FLOP 训练，以加密前沿并验证凹形趋势。
将该方法推广到其他模态（视觉、音频、多模态）及 专家混合（MoE） 或 检索增强架构。
研究 多 epoch 训练缩放 及其与学习率调度的交互。

附录

IsoFLOP 谷：在固定总 FLOP 预算下，改变模型规模并绘制最终损失得到的 U 形曲线，其最低点即该预算下的最优参数量。
参数化损失拟合：将 L(N,D) = E + A/N + B/D 拟合到所有 (loss, N, D) 三元组，可解析预测最优 N、D。
MMLU：Massive Multitask Language Understanding，含 57 个考试式任务的综合基准。
The Pile bits-per-byte (bpb)：在 The Pile 语料上的平均交叉熵（位/字节），值越低表示语言模型越好。
BIG-bench：Beyond the Imitation Game，收录 200+ 多样任务的基准集合。
RACE：Reading Comprehension from Examinations，高中英语考试题 ~10 万问。
LAMBADA：10 k 篇叙事填空数据集，模型需预测最后一个词。
Natural Questions (NQ)：Google QA 语料，含真实搜索问句及其维基答案。
Winogender：最小对句子集，用于检测性别代词偏见。
Perspective API：Google Jigsaw 公共服务，给文本分配 0–1 的毒性概率分。
LLM 偏见与毒性检测：结合 Winogender 等语料与 Perspective API，量化模型的群体偏见与有害语言倾向。