数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、训练流程
Deepseek R1的训练过程可分为两阶段迭代优化,核心是通过高质量推理数据生成和RL策略提升逻辑推理能力,具体流程如下:
阶段一(Phase 1):COT数据质量提升
1.基座模型
◦使用Deepseek V3 Base(预训练模型)作为初始基座。
2.训练步骤
◦SFT训练:用初始逻辑推理数据(如COT轨迹)进行监督微调。
◦RL强化训练:进一步优化得到Model RL-1,提升推理轨迹的生成质量。
3.核心目的
◦利用Model RL-1生成更高质量的新COT数据,随后弃用Model RL-1,仅保留新数据。
阶段二(Phase 2):干净基座再训练
1.基座模型回退
◦关键策略:重新使用原始Deepseek V3 Base(非Phase 1的Model RL-1,是为了避免使用低质量数据污染的基座)。
2.数据混合
◦新COT数据:Phase 1生成的高质量逻辑推理数据使用拒绝采样的方式来筛选轨迹数据。
◦Post-training数据:加入deepseekV3非逻辑推理类数据(如通用任务),防止模型遗忘其他能力。
3.训练流程
◦再次回到base模型上,首先用这80w的新数据对它做2个epoch的sft。
◦接着执行2个阶段的RL:
▪第1阶段RL:旨在增强模型推理方面的能力。采取类似r1 zero的RL方法,使用基于规则的RM,对模型进行RL训练,以提升模型在数学、代码和逻辑方面的推理能力。(这里用的数据集应该不是那80w,是类似于zero直接构建prompt)
▪第2阶段RL:旨在针对模型的helpfulness和 harmlessness,类似于dpsk v3的训练pipeline
二、核心训练技巧
1.迭代数据增强
◦通过前阶段模型生成更优质数据,用于后阶段训练(类似微软rStar-Math的MSCT方法)。
2.基座模型重置
◦每轮迭代均从原始干净基座出发,避免误差累积,最大化高质量数据效用。
3.防遗忘机制
◦混合逻辑与非逻辑数据,保持模型多任务平衡性。
参考图片来源:复刻OpenAI O3之路:Deepseek R1、Kimi K1.5及MCTS技术路线探析-知乎
三、DeepSeek R1 的技术价值思考:
1、r1 zero证明了无需sft,直接用base model做单纯的RL,已经可以取得强大的reasoning能力。这里单纯的RL是指:没有显式提供一些真正的long cot数据让模型去背去学,我只是在sys_msg里告诉模型先思考,再回答。接着通过RL一轮又一轮的训练,模型产出的responses越来越长,且在某个时刻出现了自我评估和反思的行为。
2、随着训练steps的增加,r1 zero倾向于产出更长的response(long cot),并且还出现了反思行为。这些都是在没有外部干预的情况下,r1 zero模型在训练中自我进化的结果。
3、对于小模型,不需要依然RL,只用蒸馏就可以使得其推理能力得到显著提升(对于大模型会是怎么样的,技术报告中没有提)
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
