数智化转型网szhzxw.cn 数字化转型网专题栏目 Zero 和 R1的简介、强化学习和冷启动相关背景知识。

Zero 和 R1的简介、强化学习和冷启动相关背景知识。

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、R1 和 Zero 的区别

在解析DeepSeek 之前,需要先了解几款模型。

DeepSeek发布了两款模型,分别为 DeepSeek-R1 和 DeepSeek-R1-Zero。

构建这两个模型的目标是相似的,都是为了提升模型的推理能力。

特别是在数学、代码和复杂问题解决方面,但它们确实还是有一些不同。

简单来说,DeepSeek-R1 是一个更成熟、更实用的版本,而 DeepSeek-R1-Zero 是一个探索性的“纯强化学习”模型。

DeepSeek-R1-Zero 完全依靠强化学习(RL)进行训练,没有经过监督微调(SFT)。

也就是说,Zero 模型在训练时,是自己在探索可靠的推理方式。

“它在自己训练自己的思维”。

这样就带来了一些问题,比如 Zero 容易生成重复内容、可读性差、语言混杂。

为什么呢?

因为 Zero 只专注探索推理思维了,并没有给它喂足够的高质量知识,所以它虽然思维能力很好,但话却说不出来。

这就导致了它的回答效果很差。

而 DeepSeek-R1 在强化学习之前,先加入了冷启动数据进行微调(SFT),让模型从一开始就具备基础的语言和推理能力,之后再用强化学习优化推理能力。

这样可以减少 R1-Zero 版本的缺点,提高回答质量和可读性。

所以,可以认为 DeepSeek-R1 是在 R1-Zero 的基础上,通过额外的训练步骤优化了推理质量,避免了重复回答、提高了可读性,并且能更好地对齐人类偏好。

如果你想研究强化学习如何影响大模型推理能力,可以看看 DeepSeek-R1-Zero。

但如果你想要一个更稳定、可用性更高的推理大模型,DeepSeek-R1 显然是更好的选择。

二、让 AI 自己“摸索”答案,而不是单纯“背答案”

过去 AI 大模型的训练方式主要依赖监督学习(Supervised Learning),也就是让 AI 通过大量人类标注的数据来学习。

换句话说,AI 只是一个“超级记忆机”,它能模仿人类的答案,但却不一定真正理解问题的本质。

而强化学习(Reinforcement Learning, RL)的出现,让 AI 不再是单纯的模仿者,而是能够主动探索、试错、优化自己推理方式的智能体。

这就像是在训练一个孩子解数学题。

监督学习相当于直接告诉他答案,而强化学习则是让他自己尝试解题,并根据最终的正确率进行调整。

接下来看一下强化学习的核心机制。

在 DeepSeek-R1-Zero 的训练过程中,研究人员直接使用强化学习,而没有先用人类标注数据进行微调(SFT)。

整个强化学习过程的核心可以拆解为以下几个部分:

策略更新(Policy Optimization)

这一过程让 AI 自己生成多个答案,并计算每个答案的得分(比如正确率),通过奖励机制(Reward Function),告诉 AI 哪种推理方式更有效。

AI 通过不断调整策略,学习到了更好的推理方式。

奖励建模(Reward Modeling)

这一步骤主要有两种奖励:准确性奖励和格式奖励。

准确性奖励(Accuracy Reward):如果 AI 生成的答案正确,就给它更高的分数。比如在数学推理任务中,可以直接用答案对错作为奖励标准。

格式奖励(Format Reward):如果 AI 以正确的逻辑方式表达推理过程,也会得到奖励。

例如 DeepSeek-R1-Zero 需要在 <think> 标签中写推理过程,在 <answer> 标签中写最终答案,这样可以确保 AI 形成清晰的推理逻辑。

自我进化(Self-Evolution)

DeepSeek-R1-Zero 在强化学习的过程中,逐步学会了一些高阶推理能力,比如:

1、自我验证(Self-Verification):AI 在得出答案后,会自己检查逻辑是否合理。

2、反思能力(Reflection):如果推理过程中发现问题,AI 会重新审视自己的思路。

3、生成更长的推理链(Longer Chain-of-Thoughts):从最开始只可以进行 2-3 步的简单推理,到可以进行 10 步以上的复杂推理。

经过以上强化学习技术的加持,Zero 的训练结果如何呢?

答案是:经过数千步的强化学习训练,DeepSeek-R1-Zero 在多个推理任务上的表现都得到了显著提升。

例如:

在 AIME 2024 数学竞赛任务 中,DeepSeek-R1-Zero 的 Pass@1(即第一次生成答案的正确率)从 15.6% 提升到了 71.0%。

这些结果证明,即使完全不依赖人工标注数据,仅靠强化学习,AI 也能学会复杂的推理能力。

也就是说,Zero他这个模型证明了这件事:通过强化学习,让模型学会了复杂的推理能力,这是一大创新。

三、首个纯强化学习推理大模型

为什么 DeepSeek-R1-Zero 特别?

如第 2 部分所述,DeepSeek-R1-Zero 是首个完全基于强化学习训练的推理大模型。

它在训练过程中完全不依赖监督微调(Supervised Fine-Tuning, SFT),这在 AI 训练领域是一次大胆的尝试。

大多数 AI 训练方法都依赖人类提供的大量标注数据,但 DeepSeek-R1-Zero 选择了“让 AI 自己探索推理规律”。

在强化学习的过程中,DeepSeek-R1-Zero 自己学会了一些意想不到的能力,比如 DeepSeek-R1-Zero 出现了研究人员称之为“aha 时刻(Aha Moment)”的现象:

研究人员观察到 AI 在训练过程中会突然“顿悟”,自发地改变推理方式,让答案更加精准。

例如,在解数学方程时,AI 在某个训练阶段开始学会重新审视自己的答案,并进行修正。

这就很可怕了。

正式这种自我优化能力,让 DeepSeek-R1-Zero 在多个推理任务上取得了突破性的成绩。

四、冷启动:让 AI 训练不再“摸黑”前进

在 AI 训练中,“冷启动”(Cold Start) 这个概念类似于刚买了一部新手机,开机后发现什么都没有,必须先安装应用、下载数据,才能正常使用。

DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。

为了解决这个问题,出现了“冷启动数据”的概念。

即在 AI 训练的早期阶段,先用一小批高质量的推理数据微调模型,相当于给 AI 提供一份“入门指南”。

看一下冷启动数据都有什么作用?

让 AI 训练更稳定——

避免 AI 训练初期陷入“胡乱生成答案”的混乱状态。

提升推理质量——

让 AI 在强化学习前就具备一定的推理能力,而不是完全从零开始。

改善语言表达——

减少 AI 生成的语言混杂和重复内容,让推理过程更清晰、可读性更高。

DeepSeek-R1 如何构建了“冷启动数据”?

DeepSeek-R1 采用了高质量、可读性强的冷启动数据,其数据来源包括:

从大型模型生成数据

通过使用 few-shot prompting(少样本提示)的方法,让更大的模型生成长链推理(Chain-of-Thought, CoT)数据。

例如,可以让 ChatGPT-4 或 DeepSeek-V3 生成详细的数学推理步骤,并筛选其中质量较高的部分。

从 DeepSeek-R1-Zero 生成数据

由于 DeepSeek-R1-Zero 具备一定的推理能力,可以从 Zero 的推理结果中挑选出可读性较好的结果,并重新整理后作为冷启动数据。

人工筛选和优化

还可以通过人工审查部分数据,确保格式规范,并优化表达方式,让 AI 生成的推理过程更加直观、清晰。

最终,DeepSeek-R1 使用了数千条冷启动数据来进行初步微调(Supervised Fine-Tuning, SFT),然后再进行强化学习训练。

冷启动数据如何改善了 AI 的推理能力?

答案是:显著提升!

研究人员对比了 DeepSeek-R1-Zero(无冷启动) 和 DeepSeek-R1(有冷启动) 的推理能力,发现:

DeepSeek-R1 语言表达更加流畅,不会出现大段重复或混杂语言。

DeepSeek-R1 的推理链条更完整、更清晰,避免了无意义的循环。

训练速度大幅提升,AI 能够更快学会高质量的推理模式。

可以看出,DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率,并且在生成答案的可读性上远超 DeepSeek-R1-Zero。

冷启动数据 vs. 强化学习:哪种更重要?

冷启动数据和强化学习各有优劣,二者的结合才是最佳方案!

只有强化学习(RL)时,AI 可能会生成大量无意义的推理结果,难以理解。

只有冷启动数据(SFT)时,AI 只能模仿人类提供的答案,而不会自主探索新方法。

冷启动 + 强化学习 的结合, AI 既能学到基本推理规则,又能不断优化自己的推理策略。

DeepSeek-R1 采用 “先冷启动、后强化学习” 的策略,让 AI 既能学会基础知识,又能通过强化学习不断进化。

值得注意的是,DeepSeek-R1 的冷启动数据并不是一次性构建的,而是一个持续优化的过程:

研究人员会不断调整数据质量,筛选更有助于推理的样本。

AI 训练过程中产生的新数据也会被筛选出来,作为新的冷启动数据,不断改进模型。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/76607.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部