数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

DeepSeek 最近流量很大,有非常多的朋友希望从技术的角度学习一下这个风靡全球的 AI 模型。比如,DeepSeek 一下子发布了好几款模型,有的还是蒸馏版本,这都是什么关系呢?这篇文章就带你来学习蒸馏这些知识。
本文仍然以 DeepSeek 发布的技术报告为资料来源进行技术拆解。由于技术报告涉及到的内容过多,整个技术拆解过程我分成了 3 部分。第一部分在这里:DeepSeek 技术原理大揭秘!本文为第二部分,包含:拒绝采样和模型蒸馏。
一、拒绝采样让 AI 更靠谱
AI 生成的答案并不总是正确的。有时候它会输出胡言乱语、逻辑错误或者毫无意义的答案。如果不进行筛选,这些错误答案可能会影响模型的学习过程,甚至让 AI 形成错误的推理模式。为了解决这个问题,DeepSeek-R1 采用了一种称为拒绝采样(Rejection Sampling, RS)的方法。这种方法让 AI 在训练过程中优中选优,只保留最优质的推理答案,从而提升整体推理能力。
拒绝采样是怎么做的呢?它的思想其实很简单——让 AI 生成多个答案,然后只选择最优的答案来继续训练。如果类比为考试的话,那就是挑选最高分的答卷作为标准答案,让 AI 学习最佳的解题方式。在 DeepSeek-R1 的训练过程中,拒绝采样的步骤如下——
首先:让 AI 在同一个问题上生成多个不同的答案。
然后:计算每个答案的质量分数(比如正确率、逻辑清晰度等)。
最后:只保留质量最高的答案用于后续的训练,丢弃掉较差的答案。通过这个过程,AI 就会逐步学会如何生成更高质量的推理链,而不是随意生成答案。
为什么拒绝采样对 R1 的训练很重要?在 R1 的训练过程中,模型生成的答案质量可能会参差不齐。而我们希望的是,让 R1 学会并展现出较强的思维链。思维链的训练过程是漫长的,需要模型不断审视自己的推理结果,然后更新自己的推理方式。这个过程如果不加以约束的话,AI 很可能会重复使用低质量的推理模式,这样就导致模型一直在学不可靠的推理方式。“没有老师管教,模型学歪了”!这个时候就显示出了拒绝采样的优势——让 AI 在同一任务上尝试多种解法,并找出最优解,从而优化推理策略;通过筛选机制减少错误推理,让 AI 生成的答案更加可信。
拒绝采样的效果如何?很有效!DeepSeek 发布的技术报告中指出,研究人员在 DeepSeek-R1 的训练过程中,采用拒绝采样后,模型在多个基准测试中的表现得到了明显提升。例如,在数学推理任务 AIME 2024 上,DeepSeek-R1 采用拒绝采样后,正确率从 71.0% 提升到 79.8%。并且研究结果显示,采用拒绝采样技术之后,为模型带来了如下的改进:
推理链更加清晰:AI 生成的答案不再是随意的,而是经过了优化推理后的输出,逻辑也更加合理。
减少胡言乱语:AI 以前可能会生成不相关的内容,但拒绝采样可以有效避免这些问题。
数学、代码等任务的正确率提升:筛选出最优答案后,AI 逐渐学会正确的推理模式,提高任务完成度。总的来说,传统 AI 训练方法通常是给定一个标准答案,让 AI 模仿答案的格式和内容。这样 AI 只能学到人类提供的答案,而无法自主探索更优的解法。而拒绝采样让 AI 有机会在多个答案之间进行选择,并通过筛选机制优化自己的推理方式。这是一种进化!
二、知识蒸馏:让小模型具备强推理能力!
DeepSeek 发布的模型中,有一些是蒸馏过的模型。我们先看下什么是知识蒸馏——知识蒸馏(Knowledge Distillation)是一种让小模型从大模型中学习知识的技术。类似于一位资深老师将自己的知识浓缩后,传授给了学生。
为什么要做知识蒸馏呢?这是因为大模型通常计算量大、推理速度慢,而小模型虽然计算资源消耗更少,但推理能力往往不如大模型。通过知识蒸馏,小模型可以继承大模型的推理能力,同时保持较低的计算成本。
通俗的讲:通过蒸馏可以把大模型好的东西拿过来,放到小模型身上。在 DeepSeek-R1 训练过程中,研究人员通过知识蒸馏,让较小的模型也能具备较强的推理能力。例如,DeepSeek-R1-Distill-Qwen-32B 通过蒸馏,学习到了 DeepSeek-R1 的推理模式,在多个基准测试上表现优异。
核心原理知识蒸馏的基本流程如下:
1、大模型生成高质量数据让 DeepSeek-R1 生成大量的推理过程,包括数学计算、代码推理等任务的详细答案。这些答案不仅包含最终结果,还包含完整的推理链条,帮助小模型理解解题逻辑。
2、小模型学习大模型的输出小模型不会直接从零开始训练,而是通过监督微调(Supervised Fine-Tuning, SFT)来模仿大模型的推理过程。通过不断优化,小模型可以逐渐学会像大模型一样进行推理。影响通过知识蒸馏,DeepSeek 的研究人员成功让小模型的推理能力大幅提升。例如,在 AIME 2024 数学测试中,DeepSeek-R1-Distill-Qwen-32B 的正确率达到了 72.6%,大幅超过传统的小模型。以下是不同模型在多个任务上的对比结果:
可以看出,单独用强化学习训练小模型(DeepSeek-R1-Zero-Qwen-32B)效果并不理想。而经过知识蒸馏后,DeepSeek-R1-Distill-Qwen-32B 的推理能力大幅提升,接近甚至超越了某些更大的模型。
知识蒸馏 vs. 强化学习
虽然强化学习可以提升 AI 的推理能力,但其计算成本较高,且对小模型不一定适用。相比之下,知识蒸馏更加适合训练小模型——研究结果表明,直接对小模型进行强化学习,其推理能力仍然难以媲美蒸馏后的模型。例如——经过大规模强化学习的 DeepSeek-R1-Zero-Qwen-32B,表现与 QwQ-32B-Preview 相当,但未能超越后者。但经过知识蒸馏的 DeepSeek-R1-Distill-Qwen-32B,在多个任务上超越了 OpenAI-o1-mini,说明蒸馏后的模型是真的能打。
一点小结
知识蒸馏是一种让小模型学习大模型推理能力的重要技术。在 DeepSeek-R1 训练过程中,研究人员通过知识蒸馏让较小的模型也能在数学、代码推理等任务上取得优秀的成绩。相比直接强化学习,小模型通过蒸馏获得了更稳定的推理能力,同时训练成本也更低。
所以,如果你看完上面的文章,相信你就会对 DeepSeek 发布的几款模型有了更深刻的认识了吧。DeepSeek-R1-Distill-Qwen-32B,表示将 DeepSeek-R1 的知识蒸馏(Distill)到了 Qwen-32B 这个小模型上。这样,这个模型不仅拥有 Qwen-32B 本来的语言能力和知识,而且还有了 DeepSeek-R1 的推理能力。效果不就飞起了吗?
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
