DeepSeek 技术原理大揭秘，蒸馏的小模型也很能打-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

DeepSeek 最近流量很大，有非常多的朋友希望从技术的角度学习一下这个风靡全球的 AI 模型。比如，DeepSeek 一下子发布了好几款模型，有的还是蒸馏版本，这都是什么关系呢？这篇文章就带你来学习蒸馏这些知识。

本文仍然以 DeepSeek 发布的技术报告为资料来源进行技术拆解。由于技术报告涉及到的内容过多，整个技术拆解过程我分成了 3 部分。第一部分在这里：DeepSeek 技术原理大揭秘！本文为第二部分，包含：拒绝采样和模型蒸馏。

一、拒绝采样让 AI 更靠谱

AI 生成的答案并不总是正确的。有时候它会输出胡言乱语、逻辑错误或者毫无意义的答案。如果不进行筛选，这些错误答案可能会影响模型的学习过程，甚至让 AI 形成错误的推理模式。为了解决这个问题，DeepSeek-R1 采用了一种称为拒绝采样（Rejection Sampling, RS）的方法。这种方法让 AI 在训练过程中优中选优，只保留最优质的推理答案，从而提升整体推理能力。

拒绝采样是怎么做的呢？它的思想其实很简单——让 AI 生成多个答案，然后只选择最优的答案来继续训练。如果类比为考试的话，那就是挑选最高分的答卷作为标准答案，让 AI 学习最佳的解题方式。在 DeepSeek-R1 的训练过程中，拒绝采样的步骤如下——

首先：让 AI 在同一个问题上生成多个不同的答案。

然后：计算每个答案的质量分数（比如正确率、逻辑清晰度等）。

最后：只保留质量最高的答案用于后续的训练，丢弃掉较差的答案。通过这个过程，AI 就会逐步学会如何生成更高质量的推理链，而不是随意生成答案。

为什么拒绝采样对 R1 的训练很重要？在 R1 的训练过程中，模型生成的答案质量可能会参差不齐。而我们希望的是，让 R1 学会并展现出较强的思维链。思维链的训练过程是漫长的，需要模型不断审视自己的推理结果，然后更新自己的推理方式。这个过程如果不加以约束的话，AI 很可能会重复使用低质量的推理模式，这样就导致模型一直在学不可靠的推理方式。“没有老师管教，模型学歪了”！这个时候就显示出了拒绝采样的优势——让 AI 在同一任务上尝试多种解法，并找出最优解，从而优化推理策略；通过筛选机制减少错误推理，让 AI 生成的答案更加可信。

拒绝采样的效果如何？很有效！DeepSeek 发布的技术报告中指出，研究人员在 DeepSeek-R1 的训练过程中，采用拒绝采样后，模型在多个基准测试中的表现得到了明显提升。例如，在数学推理任务 AIME 2024 上，DeepSeek-R1 采用拒绝采样后，正确率从 71.0% 提升到 79.8%。并且研究结果显示，采用拒绝采样技术之后，为模型带来了如下的改进：

推理链更加清晰：AI 生成的答案不再是随意的，而是经过了优化推理后的输出，逻辑也更加合理。

减少胡言乱语：AI 以前可能会生成不相关的内容，但拒绝采样可以有效避免这些问题。

数学、代码等任务的正确率提升：筛选出最优答案后，AI 逐渐学会正确的推理模式，提高任务完成度。总的来说，传统 AI 训练方法通常是给定一个标准答案，让 AI 模仿答案的格式和内容。这样 AI 只能学到人类提供的答案，而无法自主探索更优的解法。而拒绝采样让 AI 有机会在多个答案之间进行选择，并通过筛选机制优化自己的推理方式。这是一种进化！

二、知识蒸馏：让小模型具备强推理能力！

DeepSeek 发布的模型中，有一些是蒸馏过的模型。我们先看下什么是知识蒸馏——知识蒸馏（Knowledge Distillation）是一种让小模型从大模型中学习知识的技术。类似于一位资深老师将自己的知识浓缩后，传授给了学生。

为什么要做知识蒸馏呢？这是因为大模型通常计算量大、推理速度慢，而小模型虽然计算资源消耗更少，但推理能力往往不如大模型。通过知识蒸馏，小模型可以继承大模型的推理能力，同时保持较低的计算成本。

通俗的讲：通过蒸馏可以把大模型好的东西拿过来，放到小模型身上。在 DeepSeek-R1 训练过程中，研究人员通过知识蒸馏，让较小的模型也能具备较强的推理能力。例如，DeepSeek-R1-Distill-Qwen-32B 通过蒸馏，学习到了 DeepSeek-R1 的推理模式，在多个基准测试上表现优异。

核心原理知识蒸馏的基本流程如下：

1、大模型生成高质量数据让 DeepSeek-R1 生成大量的推理过程，包括数学计算、代码推理等任务的详细答案。这些答案不仅包含最终结果，还包含完整的推理链条，帮助小模型理解解题逻辑。

2、小模型学习大模型的输出小模型不会直接从零开始训练，而是通过监督微调（Supervised Fine-Tuning, SFT）来模仿大模型的推理过程。通过不断优化，小模型可以逐渐学会像大模型一样进行推理。影响通过知识蒸馏，DeepSeek 的研究人员成功让小模型的推理能力大幅提升。例如，在 AIME 2024 数学测试中，DeepSeek-R1-Distill-Qwen-32B 的正确率达到了 72.6%，大幅超过传统的小模型。以下是不同模型在多个任务上的对比结果：

可以看出，单独用强化学习训练小模型（DeepSeek-R1-Zero-Qwen-32B）效果并不理想。而经过知识蒸馏后，DeepSeek-R1-Distill-Qwen-32B 的推理能力大幅提升，接近甚至超越了某些更大的模型。

知识蒸馏 vs. 强化学习

虽然强化学习可以提升 AI 的推理能力，但其计算成本较高，且对小模型不一定适用。相比之下，知识蒸馏更加适合训练小模型——研究结果表明，直接对小模型进行强化学习，其推理能力仍然难以媲美蒸馏后的模型。例如——经过大规模强化学习的 DeepSeek-R1-Zero-Qwen-32B，表现与 QwQ-32B-Preview 相当，但未能超越后者。但经过知识蒸馏的 DeepSeek-R1-Distill-Qwen-32B，在多个任务上超越了 OpenAI-o1-mini，说明蒸馏后的模型是真的能打。

一点小结

知识蒸馏是一种让小模型学习大模型推理能力的重要技术。在 DeepSeek-R1 训练过程中，研究人员通过知识蒸馏让较小的模型也能在数学、代码推理等任务上取得优秀的成绩。相比直接强化学习，小模型通过蒸馏获得了更稳定的推理能力，同时训练成本也更低。

所以，如果你看完上面的文章，相信你就会对 DeepSeek 发布的几款模型有了更深刻的认识了吧。DeepSeek-R1-Distill-Qwen-32B，表示将 DeepSeek-R1 的知识蒸馏（Distill）到了 Qwen-32B 这个小模型上。这样，这个模型不仅拥有 Qwen-32B 本来的语言能力和知识，而且还有了 DeepSeek-R1 的推理能力。效果不就飞起了吗？

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

DeepSeek 技术原理大揭秘，蒸馏的小模型也很能打

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、拒绝采样让 AI 更靠谱

二、知识蒸馏：让小模型具备强推理能力！

上海出口退税开启“倍速” 逾两万户企业已退税超660亿元

服务商资讯|端侧AI市场的优等生：从全志AI眼镜芯片谈起

关于推进锂电池材料产业高质量发展的指导意见政策解读

应对恶意IP攻击的有效方法

人工智能资讯|硅基流动平台上线阿里 Qwen3-VL 模型，全面提升视觉认知能力

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、拒绝采样让 AI 更靠谱

二、知识蒸馏：让小模型具备强推理能力！

通俗易懂地说说DeepSeek的原理

从 DeepSeek R1 看未来：揭秘爆火 AI 模型背后的技术原理

相关推荐

联系我们

微信扫一扫关注我们