Open R1：DeepSeek-R1全开源复现？-数智化转型网szhzxw.cn

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

HuggingFace团队官宣复刻DeepSeek R1所有pipeline。

复刻完成后，所有的训练数据、训练脚本等等，将全部开源。

这个项目叫做Open R1，当前还在进行中。截止目前，星标冲破3.4k，斩获255个fork。

项目地址：https://github.com/huggingface/open-r1

不过话说回来，DeepSeek-R1本身就是开源的，HuggingFace搞这么个“Open R1”项目，又是为何？

官方在项目页中做了解释：

这个项目的目的是构建R1 pipeline中缺失的部分，以便所有人都能在此之上复制和构建R1。

HuggingFace表示，将以DeepSeek-R1的技术报告为指导，分3个步骤完成这个项目：

结合DeepSeek的官方技术报告来看，也就是说，Open R1项目首先要实现的，是用R1数据蒸馏小模型，看看效果是不是像DeepSeek说的那么好：

DeepSeek开源了6个用R1蒸馏的小模型，其中蒸馏版Qwen-1.5甚至能在部分任务上超过GPT-4o。

接下来，就是按照DeepSeek所说，不用SFT，纯靠RL调教出R1-Zero，再在R1-Zero的基础上复刻出性能逼近o1的R1模型。

其中多阶段训练是指，R1技术报告提到，DeepSeek-R1训练过程中引入了一个多阶段训练流程，具体包括以下4个阶段：

用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始的推理能力

在第一个SFT阶段的基础之上，用和训练R1-Zero相同的大规模强化学习方法，进一步提升模型的推理能力，特别是应对编程、数学、科学和逻辑推理任务的能力。

再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。

这次强化学习的重点是让模型行为与人类偏好保持一致，提升模型的可用性和安全性。

目前，在GitHub仓库中，已经可以看到这几个文件：

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

Open R1：DeepSeek-R1全开源复现？