数智化转型网szhzxw.cn 数字化转型网专题栏目 DeepSeek 技术原理大揭秘,蒸馏的小模型也很能打

DeepSeek 技术原理大揭秘,蒸馏的小模型也很能打

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

DeepSeek 最近流量很大,有非常多的朋友希望从技术的角度学习一下这个风靡全球的 AI 模型。比如,DeepSeek 一下子发布了好几款模型,有的还是蒸馏版本,这都是什么关系呢?这篇文章就带你来学习蒸馏这些知识。

本文仍然以 DeepSeek 发布的技术报告为资料来源进行技术拆解。由于技术报告涉及到的内容过多,整个技术拆解过程我分成了 3 部分。第一部分在这里:DeepSeek 技术原理大揭秘!本文为第二部分,包含:拒绝采样和模型蒸馏。

一、拒绝采样让 AI 更靠谱

AI 生成的答案并不总是正确的。有时候它会输出胡言乱语、逻辑错误或者毫无意义的答案。如果不进行筛选,这些错误答案可能会影响模型的学习过程,甚至让 AI 形成错误的推理模式。为了解决这个问题,DeepSeek-R1 采用了一种称为拒绝采样(Rejection Sampling, RS)的方法。这种方法让 AI 在训练过程中优中选优,只保留最优质的推理答案,从而提升整体推理能力。

拒绝采样是怎么做的呢?它的思想其实很简单——让 AI 生成多个答案,然后只选择最优的答案来继续训练。如果类比为考试的话,那就是挑选最高分的答卷作为标准答案,让 AI 学习最佳的解题方式。在 DeepSeek-R1 的训练过程中,拒绝采样的步骤如下——

首先:让 AI 在同一个问题上生成多个不同的答案。

然后:计算每个答案的质量分数(比如正确率、逻辑清晰度等)。

最后:只保留质量最高的答案用于后续的训练,丢弃掉较差的答案。通过这个过程,AI 就会逐步学会如何生成更高质量的推理链,而不是随意生成答案。

为什么拒绝采样对 R1 的训练很重要?在 R1 的训练过程中,模型生成的答案质量可能会参差不齐。而我们希望的是,让 R1 学会并展现出较强的思维链。思维链的训练过程是漫长的,需要模型不断审视自己的推理结果,然后更新自己的推理方式。这个过程如果不加以约束的话,AI 很可能会重复使用低质量的推理模式,这样就导致模型一直在学不可靠的推理方式。“没有老师管教,模型学歪了”!这个时候就显示出了拒绝采样的优势——让 AI 在同一任务上尝试多种解法,并找出最优解,从而优化推理策略;通过筛选机制减少错误推理,让 AI 生成的答案更加可信。

拒绝采样的效果如何?很有效!DeepSeek 发布的技术报告中指出,研究人员在 DeepSeek-R1 的训练过程中,采用拒绝采样后,模型在多个基准测试中的表现得到了明显提升。例如,在数学推理任务 AIME 2024 上,DeepSeek-R1 采用拒绝采样后,正确率从 71.0% 提升到 79.8%。并且研究结果显示,采用拒绝采样技术之后,为模型带来了如下的改进:

推理链更加清晰:AI 生成的答案不再是随意的,而是经过了优化推理后的输出,逻辑也更加合理。

减少胡言乱语:AI 以前可能会生成不相关的内容,但拒绝采样可以有效避免这些问题。

数学、代码等任务的正确率提升:筛选出最优答案后,AI 逐渐学会正确的推理模式,提高任务完成度。总的来说,传统 AI 训练方法通常是给定一个标准答案,让 AI 模仿答案的格式和内容。这样 AI 只能学到人类提供的答案,而无法自主探索更优的解法。而拒绝采样让 AI 有机会在多个答案之间进行选择,并通过筛选机制优化自己的推理方式。这是一种进化!

二、知识蒸馏:让小模型具备强推理能力!

DeepSeek 发布的模型中,有一些是蒸馏过的模型。我们先看下什么是知识蒸馏——知识蒸馏(Knowledge Distillation)是一种让小模型从大模型中学习知识的技术。类似于一位资深老师将自己的知识浓缩后,传授给了学生。

为什么要做知识蒸馏呢?这是因为大模型通常计算量大、推理速度慢,而小模型虽然计算资源消耗更少,但推理能力往往不如大模型。通过知识蒸馏,小模型可以继承大模型的推理能力,同时保持较低的计算成本。

通俗的讲:通过蒸馏可以把大模型好的东西拿过来,放到小模型身上。在 DeepSeek-R1 训练过程中,研究人员通过知识蒸馏,让较小的模型也能具备较强的推理能力。例如,DeepSeek-R1-Distill-Qwen-32B 通过蒸馏,学习到了 DeepSeek-R1 的推理模式,在多个基准测试上表现优异。

核心原理知识蒸馏的基本流程如下:

1、大模型生成高质量数据让 DeepSeek-R1 生成大量的推理过程,包括数学计算、代码推理等任务的详细答案。这些答案不仅包含最终结果,还包含完整的推理链条,帮助小模型理解解题逻辑。

2、小模型学习大模型的输出小模型不会直接从零开始训练,而是通过监督微调(Supervised Fine-Tuning, SFT)来模仿大模型的推理过程。通过不断优化,小模型可以逐渐学会像大模型一样进行推理。影响通过知识蒸馏,DeepSeek 的研究人员成功让小模型的推理能力大幅提升。例如,在 AIME 2024 数学测试中,DeepSeek-R1-Distill-Qwen-32B 的正确率达到了 72.6%,大幅超过传统的小模型。以下是不同模型在多个任务上的对比结果:

可以看出,单独用强化学习训练小模型(DeepSeek-R1-Zero-Qwen-32B)效果并不理想。而经过知识蒸馏后,DeepSeek-R1-Distill-Qwen-32B 的推理能力大幅提升,接近甚至超越了某些更大的模型。

知识蒸馏 vs. 强化学习

虽然强化学习可以提升 AI 的推理能力,但其计算成本较高,且对小模型不一定适用。相比之下,知识蒸馏更加适合训练小模型——研究结果表明,直接对小模型进行强化学习,其推理能力仍然难以媲美蒸馏后的模型。例如——经过大规模强化学习的 DeepSeek-R1-Zero-Qwen-32B,表现与 QwQ-32B-Preview 相当,但未能超越后者。但经过知识蒸馏的 DeepSeek-R1-Distill-Qwen-32B,在多个任务上超越了 OpenAI-o1-mini,说明蒸馏后的模型是真的能打

一点小结

知识蒸馏是一种让小模型学习大模型推理能力的重要技术。在 DeepSeek-R1 训练过程中,研究人员通过知识蒸馏让较小的模型也能在数学、代码推理等任务上取得优秀的成绩。相比直接强化学习,小模型通过蒸馏获得了更稳定的推理能力,同时训练成本也更低。

所以,如果你看完上面的文章,相信你就会对 DeepSeek 发布的几款模型有了更深刻的认识了吧。DeepSeek-R1-Distill-Qwen-32B,表示将 DeepSeek-R1 的知识蒸馏(Distill)到了 Qwen-32B 这个小模型上。这样,这个模型不仅拥有 Qwen-32B 本来的语言能力和知识,而且还有了 DeepSeek-R1 的推理能力。效果不就飞起了吗?

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/76615.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部