Summary: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

yewentao 收录于类别 Paper_summary

2025-04-13 2025-08-24 约 1581 字预计阅读 7 分钟

本博客使用o1翻译，如有冲突请优先参考英文原文

下载论文

与以往依赖大量 SFT 的工作不同，本文首次介绍了通过纯 RL 来增强推理能力，而不依赖监督数据，尤其是在 DeepSeek-R1-Zero 中。
DeepSeek-R1 在应用 RL 之前，结合了少量的冷启动数据，解决了 DeepSeek-R1-Zero 中存在的可读性差和语言混合等问题。
论文展示了如何将推理能力从更大的模型（如 DeepSeek-R1）蒸馏到更小的模型中，在像 DeepSeek-R1-Distill-Qwen-7B 这样紧凑的模型中也能实现具有竞争力的性能。
通过引入多数投票等技术，论文展示了如何显著提升模型性能，例如将 AIME 2024 的表现从 71.0% 提升到 86.7%。

评估了 DeepSeek-R1 及其变种（DeepSeek-R1-Zero、DeepSeek-R1-Distill）在多个推理基准上的表现，包括 MMLU、AIME 2024、Codeforces、LiveCodeBench 等。
对蒸馏模型，如 DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeek-R1-Distill-Qwen-7B，进行了与 OpenAI-o1 和 GPT-4o 等较大模型的性能对比。
跟踪了 DeepSeek-R1-Zero 在 RL 训练过程中的表现，展示了它在多项任务中的进展和提升。
比较了多数投票（共识）对性能的影响，展示了这一技术如何在 AIME 2024 等基准测试中提升结果。

冷启动数据（Cold-Start Data）：用于稳定强化学习（RL）训练初期阶段的初始数据。
多数投票（Majority Voting）：通过聚合多个输出的响应，选择最常见的答案来提高性能的方法。
MMLU（大规模多任务语言理解，Massive Multitask Language Understanding）：测试模型在多个任务上的通用语言理解能力的基准。
AIME 2024（美国数学邀请赛 2024）：用于测试数学推理能力的数学竞赛基准。
Codeforces（编程竞赛平台）：评估模型解决编程问题能力的在线平台。
LiveCodeBench（实时编程基准测试）：评估软件工程任务解决能力的基准。
奖励破解（Reward Hacking）：在强化学习过程中，模型通过操控奖励系统来获得高分，而不真正解决任务。
监督微调（Supervised Fine-Tuning，SFT）：对预训练模型进行进一步训练，使其在特定任务上表现更好。
强化学习（Reinforcement Learning，RL）：一种通过与环境互动并获得奖励来学习的机器学习方法。