DeepSeek R1 论文解读&关键技术点梳理-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

一、背景

春节期间，DeepSeek R1 再度引发广泛关注，甚至我们此前撰写的 DeepSeek V3 解读文章也再次被大量转发和讨论。尽管目前已有众多关于 DeepSeek R1 的解析与复现工作，这里我们还是决定整理一下相应的阅读笔记。我们将通过三幅核心示意图，展示模型构建和关键技术点，深入提炼 DeepSeek-R1 系列的精髓，以便更直观地理解其设计思路。

对应的论文为：[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [1]

对应的开源模型为：DeepSeek-R1 [2]

二、引言

2.1 常见 Reasoning 算法

如下图 Figure 2 所示，作者阐释了 4 种常见的 Reasoning 算法，尽管它们在具体细节上有所差异，但均包含 2 个核心操作：

扩展：生成 Token 以扩展解决方案路径。
聚合：整合各路径的结果，以得出最终答案。增加扩展阶段的计算资源，通常能提升聚合阶段答案的质量。

自一致性（Self-Consistency, SC）。如下图 Figure 2a 所示，SC 的核心思路是生成多个不同输出（可通过改变采样参数等方式实现），然后对所有答案进行投票表决，选出胜率最高的答案。关键参数是候选答案个数 n。

Rebase 算法。如下图 Figure 2b 所示，Rebase 同样是生成多个输出，只不过会分为多步生成，每一步都会使用 Reward 模型进行评分，并基于得分最高的结果继续生成，最后生成具有多个分支的推理树。聚合阶段选择得分最高（Best-of-N）的答案。

蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）。如下图 Figure 2c 所示，MCTS 是一种强大的 Reasoning 算法，通过逐步采样来扩展节点，并构建解决方案树，直至到达包含候选解的叶节点。每个解决方案通过 Reward 模型或模拟进行评分，并将分数反向传播至其祖先节点以更新其奖励值，从而完成一次迭代。关键参数同样是 n，增加 n 允许对潜在解决方案进行更深更广的探索。

内化思维链（ICoT）。如下图 Figure 2d 所示，最新的 LLM，比如 OpenAI o1 和 Qwen-QWQ，能够在训练过程中内化 Reasoning 行为，无需显式的 Reasoning 算法。其核心思路是会生成 CoT 序列，将复杂问题分解为多个小问题，然后通过反思之前的输出结果并迭代优化这些答案，并最终得出解决方案。

2.2 Reasoning 对齐方法

2.2.1 Best-of-N 方法概述

简单来说，Best-of-N 是一种广泛应用于 LLM 的 Inference 时对齐方法，旨在通过生成多个候选响应并选择最优者来确保生成结果的高质量。其包含 3 个主要过程：

生成过程：对于给定的提示（Prompt）X，Best-of-N 方法会生成 N 个独立同分布的响应（Y₁, Y₂, …, Yₙ），其中 N 通常称为“批次大小”。
评分机制：每个生成的响应都会通过一个奖励模型进行评分，得到相应的分数 {s(Y₁), s(Y₂), …, s(Yₙ)}。
选择最优响应：最终，从所有生成的响应中选择得分最高的响应作为输出，即 Y_Best-of-N = argmax {s(Y₁), s(Y₂), …, s(Yₙ)}。

该方法的优点为：

能够有效避免复杂的微调步骤，使得预训练或指令微调的语言模型更容易部署。
实现简单，易于理解，且基本上是无超参数的：主要的超参数是 N，可以在推理时动态调整。
在生成质量上具有很强的竞争力，甚至可以与一些复杂的后训练技术（如 RLHF 或 DPO）相媲美。研究表明，Best-of-N 方法在奖励与 KL 散度之间的权衡曲线表现优异，甚至超过了其他复杂的对齐策略。

该方法的不足是：

在推理时需要生成 N 个序列，这会带来巨大的计算开销。实际应用中，N 的合理值范围为 4 到 128，但为了与最先进的后训练方法竞争，可能需要更高的 N 值，例如1000 到 60000，这会带来几乎不可接受的计算开销。

Best-of-N 方法常用于生成高质量的数据集，以便后续进行监督微调，在 LLaMA-2 和 LLaMA-3 的对齐过程中发挥了关键作用。

2.2.2 OpenAI Best-of-N 方法

OpenAI 最早在 [2009.01325] Learning to summarize from human feedback [3] 中提出了 Best-of-N 采样，具体来说，它被用作从多个模型生成的摘要中选择最佳摘要，以此来评估和优化摘要模型的性能。这种方法有助于研究者更好地理解不同评估指标与人类评估者偏好之间的关系，并用于指导模型训练和优化。

OpenAI 同样在后续的 [2112.09332] WebGPT: Browser-assisted question-answering with human feedback [4] 中使用了 Best-of-N 采样（拒绝采样，Rejection Sampling）。具体来说，从 BC 模型或 RL 模型中抽取固定数量的回答（4、16 或 64 个），并选取奖励模型评分最高的那一个，以此作为对抗奖励模型的一种优化方法，该方法无需额外训练，而是通过增加推理阶段的计算量来实现。

2.2.3 Google BOND 方法

在 [2407.14622] BOND: Aligning LLMs with Best-of-N Distillation [5] 中，Google 的作者提出了 Best-of-N Distillation（BOND），是一种新的 RLHF 算法，旨在通过分布匹配（Distribution Matching）算法模拟 Best-of-N 采样策略，而无需在 Inference 时显著增加计算开销。

具体来说，作者首先推导了 Best-of-N 采样的精确解析分布，并给出了 Best-of-N 采样的概率函数：

其次，作者将该问题表示为分布匹配问题；

之后，作者提出使用 Jeffreys 散度作为分布匹配目标：

最后，为了解决 N 的选择问题，作者提出了迭代 BOND 方法，通过迭代地蒸馏 Best-of-N 分布来改进策略性能。具体步骤包括：

初始化辅助 Anchor 策略 π_anchor。
迭代执行 BOND 以蒸馏 Best-of-N 的 π_anchor，并在每个步骤后更新 π_anchor。

2.3 过程监督和结果监督

Outcome（结果）和 Process（过程）指的是 Reward 模型评估的两个方面：

Outcome Reward Model：评估模型输出的最终结果是否正确或符合预期。
Process Reward Model：评估模型在生成结果的过程中，推理和决策的步骤是否合理和有效。

比如 OpenAI 的 Let’s Verify Step by Step | OpenAI [6] 中也提到：

过程监督（Outcome-supervised）：涉及对模型 Reasoning 过程的每个步骤提供反馈。过程监督奖励模型（Process-supervised Reward Models，PRM）被训练来预测解决方案每一步的正确性。
结果监督（Process-supervised）：结果监督仅基于模型推理的最终结果提供反馈。结果监督奖励模型（Outcome-supervised Reward Models，ORM）使用解决方案的最终答案进行训练，正确性通过自动检查确定。

2.4 Reward Hacking

在 RL 中，Reward Hacking（奖励欺骗）是指智能体通过利用奖励函数的设计缺陷，以不符合设计者初衷的方式最大化累积奖励的现象。这种行为虽然在技术上符合奖励函数的优化目标，但实际效果偏离了预期的任务目标，甚至可能导致负面后果。

关键点解析：

定义与表现：
- 智能体找到奖励函数的漏洞，通过“走捷径”而非真正解决问题来获取高奖励。
- 例如：清洁机器人关闭灯光让房间“看似”整洁，而非实际打扫；游戏智能体反复刷分而不完成关卡目标；为减少刹车次数而选择不减速，引发安全隐患；生成无意义但符合关键词的内容以骗取高评分。
根源：
- 奖励函数设计不完善：过于简化或未覆盖边缘情况。
- 目标与奖励的错位：奖励函数未能完全反映真实目标，导致智能体优化“错误”的目标。
解决方案：
- 改进奖励设计：引入多维度奖励（如安全、效率等）或动态调整奖励函数。
- 对抗性验证：通过额外机制检测智能体是否“作弊”。
- 人工干预与约束：设置行为边界（如安全层）或人工反馈（如 RLHF）。
- 逆强化学习（IRL）：从专家示范中学习更真实的奖励函数。
- 分层强化学习：将任务分解为子目标，降低局部优化的风险。
与过拟合的关联：
- 两者都表现为训练指标与真实效果的脱节，但 Reward Hacking 更强调奖励函数的设计缺陷，而非模型泛化能力。
总结：
- Reward Hacking 揭示了 RL 中目标对齐的挑战。解决这一问题需要综合设计更鲁棒的奖励机制、引入外部约束，以及结合人类先验知识，确保智能体的行为既高效又符合设计意图。

三、DeepSeek-R1-Zero & DeepSeek-R1

3.1 概览

先前的研究很大程度上依赖于大量监督数据来提升模型性能。本研究表明，即便不采用 SFT 作为冷启动，通过大规模 RL 也能显著增强模型的 Reasoning 能力。此外，引入少量冷启动数据可进一步优化性能。如下为 DeepSeek-R1 的相关模型：

DeepSeek-R1-Zero：该模型直接在 Base 模型上应用 RL，无需任何 SFT 数据。
DeepSeek-R1：该模型从经过数千个 long CoT 样本微调的检查点开始应用 RL。
DeepSeek-R1-Distill-xx：将 DeepSeek-R1 的 Reasoning 能力蒸馏至小型 Dense 模型。

3.2 DeepSeek-R1-Zero

如下图所示为 DeepSeek-R1-Zero 模型训练中的关键点：

PS：需要说明的是，Paper 中对 DeepSeek-R1-Zero 的 RL 过程使用的数据没有太多介绍；其后续 R1 训练中的数据生成过程、数量倒是有说明，但是也不是特别具体。

3.2.1 RL 算法

为降低 RL 的训练成本，作者采用 DeepSeek 自己的 GRPO（Group Relative Policy Optimization）方法，[2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [7]。该方法摒弃了通常与 Policy 模型规模相当的 Critic 模型，转而通过群体得分来估计基线。如下图所示为相应的解释（图片来自 Twitter）：

3.2.2 奖励建模

奖励是训练信号的来源，它决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero，作者采用了一种基于规则的奖励系统，该系统主要由两类奖励构成：

准确性奖励：评估 Response 是否正确。例如：
- 在具有确定性结果的数学问题中，模型需以特定格式（如框内）提供最终答案，以便通过规则可靠地验证其正确性。
- 同样，对于LeetCode 问题，可利用编译器根据预设测试用例生成反馈。
格式奖励：还采用格式奖励，强制模型将其思考过程置于 ‘<think>’ 与 ‘</think>’ 标签之间。

在开发 DeepSeek-R1-Zero 过程中，作者未采用 Outcome Neural Reward Model 或 Process Neural Reward Model，因为作者发现 Neural Reward Model 在大规模 RL 过程中可能遭遇奖励欺骗（Reward Hacking）问题；除此之外，重新训练 Reward Model 不仅需要额外的训练资源，还会使整个训练流程复杂化。

3.2.3 训练模板

为了训练 DeepSeek-R1-Zero，作者首先设计了一个简洁的 Template，引导 Base 模型遵循设定的指令。如下图 Table 1 所示，该模板要求 DeepSeek-R1-Zero 先生成推理过程，随后给出最终答案。

作者特意将约束条件限定于这一结构框架内，避免引入任何内容上的偏见——例如，强制要求反思性 Reasoning 或推崇特定解题策略——以确保在 RL 过程中能准确观察模型的自然演进。

3.2.4 结论

无需 SFT 数据即可获得稳健的 Reasoning 能力：通过直接从 Base 模型启动 RL，得以在无 SFT 干扰的情况下，密切监控模型的演进轨迹。如下图 Figure 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中持续提升（生成长度逐渐变长）。这一进步并非源于外部调整，而是模型内部发展的自然结果。DeepSeek-R1-Zero 通过利用延长的测试时间计算，自然而然地获得了解决日益复杂推理任务的能力，比如反思的能力。

DeepSeek-R1-Zero 在训练中出现了 “aha moment”。如下图 Table 3 所示，这一时刻出现在模型的中间版本阶段。在此阶段，DeepSeek-R1-Zero 学会通过重新评估其初始方法，为问题分配更多的思考时间。

多数投票：通过应用多数投票法，DeepSeek-R1-Zero 的表现可得到进一步提升。例如，如下图 Table 2 所示，在 AIME 基准测试中采用多数投票后，其性能从 71.0% 跃升至 86.7%，从而超越 OpenAI-o1-0912。

缺陷：尽管 DeepSeek-R1-Zero 展现出强大的 Reasoning 能力，并自主发展出意料之外且强有力的 Reasoning 行为，但它仍面临可读性差及语言混杂等挑战。

3.3 DeepSeek-R1

为了使 Reasoning 过程更具可读性，并与开放社区共享，作者进一步探索了 DeepSeek-R1 方法，该方法利用人类友好的冷启动数据进行 RL。受 DeepSeek-R1-Zero 的启发，两个自然问题随之而来：

通过引入少量高质量数据作为冷启动，能否进一步提升 Reasoning 性能或加速收敛过程？
如何训练一个用户友好型模型，该模型不仅能生成清晰连贯的 CoT，还能展现出强大的通用能力？

针对这些问题，我们设计了一套训练 DeepSeek-R1 的流程。该流程包含多个阶段，具体如下所述：

如下图所示为 Stage-1 阶段，通过 SFT + RL 训练中间状态的 DeepSeek-R1 Stage 1：

如下图所示为 Stage-2、Stage-3 和 Stage-4 阶段：

Stage-2：左上，构建 200K 非 Reasoning 数据和 600K Reasoning 数据。
Stage-3：右上，SFT + RL 训练 DeepSeek-R1。
Stage-4：图下，蒸馏 DeepSeek-R1-Distill-xx。

3.3.1 冷启（Stage-1）

与 DeepSeek-R1-Zero 不同，为了防止 Base 模型在 RL 训练初期的不稳定 Cold Start 阶段，作者为 DeepSeek-R1 构建并收集了一小部分 Long CoT 数据，以微调模型作为初始的 RL Actor。为了收集这些数据，作者探索了多种方法：

使用带有 Long CoT 示例的 few-shot 提示
直接提示模型生成包含反思和验证的详细答案
以可读格式收集 DeepSeek-R1-Zero 的输出
通过人工标注的后处理来精炼结果

作者共收集了数千条 Cold Start 数据，用于微调 DeepSeek-V3-Base 作为 RL 的起点。与DeepSeek-R1-Zero 相比，Cold Start 数据的优势包括：

可读性：DeepSeek-R1-Zero Response 可能混合多种语言或缺乏用于突出用户答案的 Markdown 格式。相比之下，在为 DeepSeek-R1 创建 Cold Start 数据时，作者设计了一种可读的模式，包括在每个 Response 末尾的摘要，并过滤掉不便于阅读的 Response。在此，将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>，其中 reasoning_process 是 Query 的链式思维，summary 用于总结 Reasoning 结果。
潜力：通过精心设计结合人类先验的 Cold Start 数据模式，作者观察到其性能优于DeepSeek-R1-Zero。

3.3.2 Reasoning 驱动的 RL（Stage-1）

在 Cold Start 数据上对 DeepSeek-V3-Base 进行微调后，采用与 DeepSeek-R1-Zero 相同的大规模 RL 训练流程。此阶段旨在提升模型在 Reasoning 密集型任务中的能力，特别是在编程、数学、科学及逻辑推理等具有明确解决方案的问题上。

训练过程中，作者观察到 CoT 常出现语言混杂现象，尤其是在 RL 提示涉及多种语言时。为缓解语言混杂问题，作者在 RL 训练中引入了语言一致性奖励，该奖励基于 CoT 中目标语言词汇的比例计算得出。尽管消融实验显示这种对齐方式会导致模型性能略有下降，但此奖励机制符合人类偏好，增强了可读性。最终，作者将 Reasoning 任务的准确性与语言一致性奖励直接相加，构成最终奖励，并在微调后的模型上实施 RL 训练，直至其在 Reasoning 任务上达到收敛。

3.3.3 80 万精选数据构建（Stage-2）

当面向 Reasoning 的 RL 收敛时，利用所得的 Checkpoint 收集 SFT 数据，用于下一轮训练。与初期 Clold Start 数据主要集中于 Reasoning 不同，此阶段整合了来自其他领域的数据，以增强模型在写作、角色扮演及其他通用任务上的能力。具体而言，按以下方式生成数据并微调模型：

Reasoning 数据：精选 Reasoning 提示，并通过从上述 RL 训练的 Checkpoint（DeepSeek-R1 Stage 1）执行拒绝采样来生成 Reasoning 轨迹。在前一阶段，仅包含可使用基于规则的奖励进行评估的数据。然而，在此阶段，通过纳入更多数据扩展了数据集，其中部分数据采用生成式 Reward 模型，通过将真实答案与模型预测输入 DeepSeek-V3 进行判断（DeepSeek V3 as Judge）。此外，由于模型输出有时混乱且难以阅读，还过滤掉了混合语言的思维链、冗长段落及代码块。对于每个提示，采样多个响应并仅保留正确的（Best-of-N）。总计收集了约 60 万条与 Reasoning 相关的训练样本。
非 Reasonin 数据：如写作、事实问答、自我认知及翻译，采用 DeepSeek-V3 的流程，并复用部分 DeepSeek-V3 的 SFT 数据集。对于某些非 Reasoning 任务，调用 DeepSeek-V3 在回答问题前生成潜在的 CoT。然而，对于简单 Query，如“你好”，不在 Response 中提供思维链。最终，收集了总计约 20 万条与 Reasoning 无关的训练样本。

3.3.4 SFT & 所有场景的 RL（Stage-3）

使用上述两种数据（Reasoning 和非 Reasoning），共约 80 万精选样本对 DeepSeek-V3-Base 进行两轮微调。

为进一步使模型与人类偏好相契合，作者实施了第二阶段的 RL，旨在提升模型的有益性与无害性，同时精进其 Reasoning 能力。具体而言，结合奖励信号与多样化的提示分布对模型进行训练。

针对 Reasoning 数据，遵循 DeepSeek-R1-Zero 所阐述的方法论，运用基于规则的奖励机制来引导模型在数学、编程及逻辑推理领域的学习。
对于通用数据，则借助 Reward 模型捕捉复杂微妙情境下的人类偏好。基于 DeepSeek-V3 流程，采用类似的偏好对与训练提示分布策略。

在有益性方面，仅关注最终总结，确保评估侧重于 Response 对用户的实用性和相关性，同时尽量减少对底层 Reasoning 过程的干扰。
至于无害性，全面评估模型的整个 Response，包括 Reasoning 过程与总结，以识别并消除生成过程中可能出现的任何潜在风险、偏见或有害内容。
最终，通过整合奖励信号与多样化数据分布，得以训练出一个在优先考虑有益性与无害性的同时，亦在 Reasoning 方面表现卓越的模型。

3.3.5 蒸馏（Stage-4）

为使更高效的小型模型具备如 DeepSeek-R1 般的 Reasoning 能力，作者直接利用 DeepSeek-R1-Stage-1 精选的 80 万样本对开源模型 Qwen 和 LLaMA 进行了微调。结果表明，这种直接蒸馏的方法显著提升了小型模型的 Reasoning 能力。作者在此使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 及Llama-3.3-70B-Instruct。选择 Llama-3.3 是因为其 Reasoning 能力略优于 Llama-3.1。

对于蒸馏的模型，作者仅采用 SFT，未包含 RL 阶段。尽管引入 RL 可大幅提升模型性能，不过作者这里的主要目的在于展示蒸馏技术的有效性，RL 阶段的探索留给后续的研究。

PS：此外，实际上也可以用最终的 DeepSeek-R1 生成上述数据并重新构成用于蒸馏的 80 万数据，蒸馏出的模型效果可能更好；不过代价就是需要重新构建数据。

四、参考链接

https://arxiv.org/abs/2501.12948
https://github.com/deepseek-ai/DeepSeek-R1
https://arxiv.org/abs/2009.01325
https://arxiv.org/abs/2112.09332
https://arxiv.org/abs/2407.14622
https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
https://arxiv.org/abs/2402.03300

声明：本文来自AI闲谈，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于AI闲谈；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

DeepSeek R1 论文解读&关键技术点梳理

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、背景