Deepseek R1的训练原理解析-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

一、训练流程

Deepseek R1的训练过程可分为两阶段迭代优化，核心是通过高质量推理数据生成和RL策略提升逻辑推理能力，具体流程如下：

阶段一（Phase 1）：COT数据质量提升

1.基座模型

◦使用Deepseek V3 Base（预训练模型）作为初始基座。

2.训练步骤

◦SFT训练：用初始逻辑推理数据（如COT轨迹）进行监督微调。

◦RL强化训练：进一步优化得到Model RL-1，提升推理轨迹的生成质量。

3.核心目的

◦利用Model RL-1生成更高质量的新COT数据，随后弃用Model RL-1，仅保留新数据。

阶段二（Phase 2）：干净基座再训练

1.基座模型回退

◦关键策略：重新使用原始Deepseek V3 Base（非Phase 1的Model RL-1，是为了避免使用低质量数据污染的基座）。

2.数据混合

◦新COT数据：Phase 1生成的高质量逻辑推理数据使用拒绝采样的方式来筛选轨迹数据。

◦Post-training数据：加入deepseekV3非逻辑推理类数据（如通用任务），防止模型遗忘其他能力。

3.训练流程

◦再次回到base模型上，首先用这80w的新数据对它做2个epoch的sft。

◦接着执行2个阶段的RL：

▪第1阶段RL：旨在增强模型推理方面的能力。采取类似r1 zero的RL方法，使用基于规则的RM，对模型进行RL训练，以提升模型在数学、代码和逻辑方面的推理能力。（这里用的数据集应该不是那80w，是类似于zero直接构建prompt）

▪第2阶段RL：旨在针对模型的helpfulness和 harmlessness，类似于dpsk v3的训练pipeline

二、核心训练技巧

1.迭代数据增强

◦通过前阶段模型生成更优质数据，用于后阶段训练（类似微软rStar-Math的MSCT方法）。

2.基座模型重置

◦每轮迭代均从原始干净基座出发，避免误差累积，最大化高质量数据效用。

3.防遗忘机制

◦混合逻辑与非逻辑数据，保持模型多任务平衡性。

参考图片来源：复刻OpenAI O3之路:Deepseek R1、Kimi K1.5及MCTS技术路线探析-知乎

三、DeepSeek R1 的技术价值思考：

1、r1 zero证明了无需sft，直接用base model做单纯的RL，已经可以取得强大的reasoning能力。这里单纯的RL是指：没有显式提供一些真正的long cot数据让模型去背去学，我只是在sys_msg里告诉模型先思考，再回答。接着通过RL一轮又一轮的训练，模型产出的responses越来越长，且在某个时刻出现了自我评估和反思的行为。

2、随着训练steps的增加，r1 zero倾向于产出更长的response（long cot），并且还出现了反思行为。这些都是在没有外部干预的情况下，r1 zero模型在训练中自我进化的结果。

3、对于小模型，不需要依然RL，只用蒸馏就可以使得其推理能力得到显著提升（对于大模型会是怎么样的，技术报告中没有提）

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

Deepseek R1的训练原理解析

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、训练流程

阶段一（Phase 1）：COT数据质量提升

阶段二（Phase 2）：干净基座再训练

二、核心训练技巧

三、DeepSeek R1 的技术价值思考：

灯塔工厂|我国42家“灯塔工厂”最新分布版图一览（附10大行业“灯塔经验”）

人工智能资讯|可灵AI 3.0发布：进一步降低多模态创作门槛，让电影叙事广泛普及

丰田使用人工智能，大数据和机器人的惊人方式

服务商资讯|马上消费与中国电子技术标准化研究院签署战略合作协议

《福布斯》深度解析“人工智能+医疗保险”的四大应用场景，撬动3.5万亿美元庞大产业

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、训练流程

阶段一（Phase 1）：COT数据质量提升

阶段二（Phase 2）：干净基座再训练

二、核心训练技巧

三、DeepSeek R1 的技术价值思考：

深度解密：DeepSeek 的神秘面纱

ChatGPT大语言模型的原理（中）

相关推荐

联系我们

微信扫一扫关注我们