目录

Summary: DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale

yewentao 收录于类别 Paper_summary

2025-06-08 2025-08-24 约 1318 字预计阅读 6 分钟

目录

本博客使用o3翻译，如有冲突请优先参考英文原文

0. Materials

1. 本文研究内容

引入 DeepSpeed-MoE：通过将稠密前馈层替换为稀疏激活的 Mixture-of-Experts（MoE）层，在保证相同质量的前提下，将训练成本降低 ≈5 ×，将推理延迟 / 价格提升至最高 4.5 × / 降低 9 ×。
提出 Pyramid-Residual MoE（PR-MoE）：为越深层分配更多专家，并将固定 MLP“残差”与门控专家并联，在无精度损失的情况下将参数量减少 ≈3 ×。
提出 Mixture-of-Students（MoS）：在 PR-MoE 基础上裁剪 12.5 % 专家层深度，并结合分阶段知识蒸馏恢复精度，使模型规模再缩小到 3.7 ×。
给出层次化、并行度协调的推理引擎（DeepSpeed-Inference 组件），使万亿参数 MoE 在 A100 集群上仍能保持 ≤25 ms 延迟。

2. 相比既有工作的贡献

首次将 MoE 大规模应用于 自回归 GPT-类模型，实测同质质量下节省 5 × 训练算力。
首次结合 金字塔专家分配 + 残差专家：验证深层需要更多专家（现象-I），并证明“固定 MLP + 单专家”可用 Top-1 通信获得与 Top-2 路由相近的精度（现象-II）。
MoS 分阶段蒸馏：先行 KD+CE，后期仅 CE，避免后期欠拟合并维持精度。
层级 All-to-All + Expert-Slicing：降低通信复杂度，实现万亿参数推理超线性吞吐并把延迟压到 25 ms。

3. 支撑论点的实验

预训练：在 128×A100 上以 300 B token 训练 7 个 GPT/MoE/PR-MoE/MoS 模型（350 M→52 B），比较验证损失与 LAMBADA、PIQA、BoolQ、RACE-h、TriviaQA、WebQs 六项零样本任务。
消融实验：比较前半/后半 MoE、Top-2 vs. Residual、Pyramid vs. Residual 等，证实现象-I 与现象-II。
系统扩缩：52 B 模型在 8→64 GPU 上出现吞吐超线性增长；107 B→1 T 模型延迟维持 ≤25 ms，比原生 PyTorch MoE 快 5.5-7.3 ×。
PR-MoE+MoS 效果：GPU 数由 32→16，延迟再降 20-25 %；在 1 T 规模上比 175 B 稠密模型推理 4.5 × 更快且 9 × 更便宜。

4. 局限性

评测集中在语言模型，对 视觉、多模态、强化学习 等领域的适用性尚未验证。
分阶段 KD 的停止步与温度需手动调试，缺乏系统性探讨，可能影响可复现性。
稀疏激活带来的负载不均虽然通过 Expert Parallelism 缓解，但对极长序列仍有影响。

5. 后续可行方向

将 PR-MoE / MoS 扩展至多模态 LLM（文本-视觉-音频），验证残差专家设计能否继续省参
采用 自动化课表或强化学习 寻优 KD 日程，去除人工裁剪超参。
在 PR-MoE 专家中引入 8-bit GPTQ 量化，让推理可在消费级 GPU 上实现。
研究 按序列长度或困惑度动态分配专家，减少推理高峰期的显存与带宽占用。

附录

Top-1 Gating：为每个 token 仅选择最高得分的一个专家。
Top-2 Gating：为每个 token 选择两个专家，精度略升但通信与计算近乎翻倍。
Expert Parallelism (EP)：将专家集合拆分到多张 GPU，每卡只保存部分专家，以降低显存并利用局域性。
Expert-Slicing：当 GPU 数 > 专家数时，再把单个专家的权重做张量切分，进一步降低延迟。
Pyramid-MoE：对深层分配更多专家，呼应“深层更需容量”的现象-I。
Residual-MoE：固定稠密 MLP 并并联单专家，通过残差视角实现 Top-2 级精度但仅需 Top-1 的通信。
Mixture-of-Students (MoS)：在 PR-MoE 上减深度 + 分阶段蒸馏得到的学生网络。
分阶段 KD Schedule：先 KL + CE 稳定蒸馏，后期仅 CE，避免欠拟合。