Summary: Training Compute-Optimal Large Language Models
目录
本博客使用
O3
翻译,如有冲突请优先参考英文原文
0. Materials
1. 论文研究内容
- 探讨在固定训练计算预算(FLOPs)下,如何在模型参数数量
N
与训练标记数D
之间进行最优分配。 - 推导出新的 计算最优缩放定律:若总计算量为
C
,则 参数量和训练标记数应当近似按 $C^{0.5}$ 同比例增长,颠覆早期“以参数为主”的方案。 - 通过实证验证该定律,并训练出 Chinchilla(70 B 参数,1.4 T 标记),在相同 FLOPs 下优于更大的模型(Gopher 280 B、GPT-3 175 B、MT-NLG 530 B)。
2. 相较于前人工作的创新点
- 提出 参数数 : 训练标记数 ≈ 1 : 1 的新缩放规则,取代 Kaplan 等(2020)的 “参数偏重” 规则($N∝C^{0.73}, D∝C^{0.27}$)。
- 引入三种互补方法——训练曲线包络(training-curve envelope)、等 FLOP 谷(IsoFLOP valleys) 以及 参数化损失拟合——直接从数据中估计计算效率前沿。
3. 支撑论点的实验
进行 400 余次预训练,覆盖 70 M→16 B 参数、5 B→500 B 标记,绘制损失-计算量曲面。
构建训练曲线包络以获得每 FLOP 的最小损失,并用 IsoFLOP 曲线在固定计算量下寻找损失最小点。
将损失拟合为
Loss ≈ E + A/N^α + B/D^β
,得到闭式最优解(α≈0.54,β≈0.46)。整预算训练 Chinchilla(与 Gopher 同为 5.76×10²³ FLOPs),并在下列基准上同场对比:
- The Pile bits-per-byte、WikiText103 困惑度
- MMLU(较 Gopher 提升 7.6 个百分点)
- BIG-bench(提升 10.7 个百分点)
- 阅读理解(RACE、LAMBADA)、闭卷问答(Natural Questions、TriviaQA)
进行偏见与毒性检测(Winogender、PerspectiveAPI),未见对 Gopher 的不良反弹。
4. 局限性
- 仅有两条整预算训练(Gopher 与 Chinchilla);缺少中间规模的完整验证。
- 假设的幂律在极端计算量处可能略显凹形,暗示最优模型或许更小。
- 所有实验都在语料上 <1 个 epoch,多轮遍历的行为尚未验证。
- Chinchilla 见到 4 倍数据,可能带来 训练-测试泄漏,从而抬高基准分数。
5. 可行的下一步工作
- 收集并清洗更大、质量更高的语料(数万亿标记),在避免泄漏的前提下测试缩放定律并研究数据质量影响。
- 在中间计算规模进行更多等 FLOP 训练,以加密前沿并验证凹形趋势。
- 将该方法推广到其他模态(视觉、音频、多模态)及 专家混合(MoE) 或 检索增强架构。
- 研究 多 epoch 训练缩放 及其与学习率调度的交互。
附录
- IsoFLOP 谷:在固定总 FLOP 预算下,改变模型规模并绘制最终损失得到的 U 形曲线,其最低点即该预算下的最优参数量。
- 参数化损失拟合:将
L(N,D) = E + A/N + B/D
拟合到所有 (loss, N, D) 三元组,可解析预测最优 N、D。 - MMLU:Massive Multitask Language Understanding,含 57 个考试式任务的综合基准。
- The Pile bits-per-byte (bpb):在 The Pile 语料上的平均交叉熵(位/字节),值越低表示语言模型越好。
- BIG-bench:Beyond the Imitation Game,收录 200+ 多样任务的基准集合。
- RACE:Reading Comprehension from Examinations,高中英语考试题 ~10 万问。
- LAMBADA:10 k 篇叙事填空数据集,模型需预测最后一个词。
- Natural Questions (NQ):Google QA 语料,含真实搜索问句及其维基答案。
- Winogender:最小对句子集,用于检测性别代词偏见。
- Perspective API:Google Jigsaw 公共服务,给文本分配 0–1 的毒性概率分。
- LLM 偏见与毒性检测:结合 Winogender 等语料与 Perspective API,量化模型的群体偏见与有害语言倾向。