数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

HuggingFace团队官宣复刻DeepSeek R1所有pipeline。
复刻完成后,所有的训练数据、训练脚本等等,将全部开源。
这个项目叫做Open R1,当前还在进行中。截止目前,星标冲破3.4k,斩获255个fork。
项目地址:https://github.com/huggingface/open-r1
不过话说回来,DeepSeek-R1本身就是开源的,HuggingFace搞这么个“Open R1”项目,又是为何?
官方在项目页中做了解释:
这个项目的目的是构建R1 pipeline中缺失的部分,以便所有人都能在此之上复制和构建R1。
HuggingFace表示,将以DeepSeek-R1的技术报告为指导,分3个步骤完成这个项目:
- 第1步:用DeepSeek-R1蒸馏高质量语料库,来复制R1-Distill模型。
- 第2步:复制DeepSeek用来构建R1-Zero的纯强化学习(RL)pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。
- 第3步:通过多阶段训练,从基础模型过渡到RL版本。
结合DeepSeek的官方技术报告来看,也就是说,Open R1项目首先要实现的,是用R1数据蒸馏小模型,看看效果是不是像DeepSeek说的那么好:
DeepSeek开源了6个用R1蒸馏的小模型,其中蒸馏版Qwen-1.5甚至能在部分任务上超过GPT-4o。
接下来,就是按照DeepSeek所说,不用SFT,纯靠RL调教出R1-Zero,再在R1-Zero的基础上复刻出性能逼近o1的R1模型。
其中多阶段训练是指,R1技术报告提到,DeepSeek-R1训练过程中引入了一个多阶段训练流程,具体包括以下4个阶段:
- 冷启动
用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始的推理能力
- 面向推理的强化学习
在第一个SFT阶段的基础之上,用和训练R1-Zero相同的大规模强化学习方法,进一步提升模型的推理能力,特别是应对编程、数学、科学和逻辑推理任务的能力。
- 拒绝采样和监督微调
再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。
- 针对所有场景的强化学习
这次强化学习的重点是让模型行为与人类偏好保持一致,提升模型的可用性和安全性。
目前,在GitHub仓库中,已经可以看到这几个文件:
- GRPO实现
- 训练和评估代码
- 合成数据生成器
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
