目录

Summary: Training Compute-Optimal Large Language Models

本博客使用O3翻译,如有冲突请优先参考英文原文

  • 探讨在固定训练计算预算(FLOPs)下,如何在模型参数数量 N 与训练标记数 D 之间进行最优分配。
  • 推导出新的 计算最优缩放定律:若总计算量为 C,则 参数量和训练标记数应当近似按 $C^{0.5}$ 同比例增长,颠覆早期“以参数为主”的方案。
  • 通过实证验证该定律,并训练出 Chinchilla(70 B 参数,1.4 T 标记),在相同 FLOPs 下优于更大的模型(Gopher 280 B、GPT-3 175 B、MT-NLG 530 B)。
  • 提出 参数数 : 训练标记数 ≈ 1 : 1 的新缩放规则,取代 Kaplan 等(2020)的 “参数偏重” 规则($N∝C^{0.73}, D∝C^{0.27}$)。
  • 引入三种互补方法——训练曲线包络(training-curve envelope)等 FLOP 谷(IsoFLOP valleys) 以及 参数化损失拟合——直接从数据中估计计算效率前沿。
  • 进行 400 余次预训练,覆盖 70 M→16 B 参数、5 B→500 B 标记,绘制损失-计算量曲面。

  • 构建训练曲线包络以获得每 FLOP 的最小损失,并用 IsoFLOP 曲线在固定计算量下寻找损失最小点。

  • 将损失拟合为 Loss ≈ E + A/N^α + B/D^β,得到闭式最优解(α≈0.54,β≈0.46)。

  • 整预算训练 Chinchilla(与 Gopher 同为 5.76×10²³ FLOPs),并在下列基准上同场对比:

    • The Pile bits-per-byte、WikiText103 困惑度
    • MMLU(较 Gopher 提升 7.6 个百分点)
    • BIG-bench(提升 10.7 个百分点)
    • 阅读理解(RACE、LAMBADA)、闭卷问答(Natural Questions、TriviaQA)
  • 进行偏见与毒性检测(Winogender、PerspectiveAPI),未见对 Gopher 的不良反弹。

  • 仅有两条整预算训练(Gopher 与 Chinchilla);缺少中间规模的完整验证。
  • 假设的幂律在极端计算量处可能略显凹形,暗示最优模型或许更小。
  • 所有实验都在语料上 <1 个 epoch,多轮遍历的行为尚未验证。
  • Chinchilla 见到 4 倍数据,可能带来 训练-测试泄漏,从而抬高基准分数。
  • 收集并清洗更大、质量更高的语料(数万亿标记),在避免泄漏的前提下测试缩放定律并研究数据质量影响。
  • 中间计算规模进行更多等 FLOP 训练,以加密前沿并验证凹形趋势。
  • 将该方法推广到其他模态(视觉、音频、多模态)及 专家混合(MoE)检索增强架构。
  • 研究 多 epoch 训练缩放 及其与学习率调度的交互。
  • IsoFLOP 谷:在固定总 FLOP 预算下,改变模型规模并绘制最终损失得到的 U 形曲线,其最低点即该预算下的最优参数量。
  • 参数化损失拟合:将 L(N,D) = E + A/N + B/D 拟合到所有 (loss, N, D) 三元组,可解析预测最优 N、D。
  • MMLU:Massive Multitask Language Understanding,含 57 个考试式任务的综合基准。
  • The Pile bits-per-byte (bpb):在 The Pile 语料上的平均交叉熵(位/字节),值越低表示语言模型越好。
  • BIG-bench:Beyond the Imitation Game,收录 200+ 多样任务的基准集合。
  • RACE:Reading Comprehension from Examinations,高中英语考试题 ~10 万问。
  • LAMBADA:10 k 篇叙事填空数据集,模型需预测最后一个词。
  • Natural Questions (NQ):Google QA 语料,含真实搜索问句及其维基答案。
  • Winogender:最小对句子集,用于检测性别代词偏见。
  • Perspective API:Google Jigsaw 公共服务,给文本分配 0–1 的毒性概率分。
  • LLM 偏见与毒性检测:结合 Winogender 等语料与 Perspective API,量化模型的群体偏见与有害语言倾向。