Deepseek R1的训练原理解析

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、训练流程

Deepseek R1的训练过程可分为两阶段迭代优化,核心是通过高质量推理数据生成RL策略提升逻辑推理能力,具体流程如下:

阶段一(Phase 1):COT数据质量提升

1.基座模型

◦使用Deepseek V3 Base(预训练模型)作为初始基座。

2.训练步骤

SFT训练:用初始逻辑推理数据(如COT轨迹)进行监督微调。

RL强化训练:进一步优化得到Model RL-1,提升推理轨迹的生成质量。

3.核心目的

◦利用Model RL-1生成更高质量的新COT数据,随后弃用Model RL-1,仅保留新数据。

阶段二(Phase 2):干净基座再训练

1.基座模型回退

关键策略:重新使用原始Deepseek V3 Base(非Phase 1的Model RL-1,是为了避免使用低质量数据污染的基座)。

2.数据混合

新COT数据:Phase 1生成的高质量逻辑推理数据使用拒绝采样的方式来筛选轨迹数据。

Post-training数据:加入deepseekV3非逻辑推理类数据(如通用任务),防止模型遗忘其他能力

3.训练流程

◦再次回到base模型上,首先用这80w的新数据对它做2个epoch的sft。

◦接着执行2个阶段的RL:

▪第1阶段RL:旨在增强模型推理方面的能力。采取类似r1 zero的RL方法,使用基于规则的RM,对模型进行RL训练,以提升模型在数学、代码和逻辑方面的推理能力。(这里用的数据集应该不是那80w,是类似于zero直接构建prompt)

▪第2阶段RL:旨在针对模型的helpfulness和 harmlessness,类似于dpsk v3的训练pipeline

二、核心训练技巧

1.迭代数据增强

◦通过前阶段模型生成更优质数据,用于后阶段训练(类似微软rStar-Math的MSCT方法)。

2.基座模型重置

◦每轮迭代均从原始干净基座出发,避免误差累积,最大化高质量数据效用。

3.防遗忘机制

◦混合逻辑与非逻辑数据,保持模型多任务平衡性。

参考图片来源:复刻OpenAI O3之路:Deepseek R1、Kimi K1.5及MCTS技术路线探析-知乎

三、DeepSeek R1 的技术价值思考:

1、r1 zero证明了无需sft,直接用base model做单纯的RL,已经可以取得强大的reasoning能力。这里单纯的RL是指:没有显式提供一些真正的long cot数据让模型去背去学,我只是在sys_msg里告诉模型先思考,再回答。接着通过RL一轮又一轮的训练,模型产出的responses越来越长,且在某个时刻出现了自我评估和反思的行为。

2、随着训练steps的增加,r1 zero倾向于产出更长的response(long cot),并且还出现了反思行为。这些都是在没有外部干预的情况下,r1 zero模型在训练中自我进化的结果。

3、对于小模型,不需要依然RL,只用蒸馏就可以使得其推理能力得到显著提升(对于大模型会是怎么样的,技术报告中没有提)

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/76831.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部