从原理上理解 DeepSeek-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

这个春节最火的就数 DeepSeek 了。

但舆论对于大模型还是有很多误解，这篇文章想消除大家常见的一些误会，并详细说说 DeepSeek R1 底层原理的突破。

当然，作为一个普通的吃瓜群众，我也没有办法做到非常深入，如有错误欢迎指正。

一、常见的一些误解

1、大模型会收集用户聊天内容用于训练

这是对大模型最常见的一个误解。

很多人认为类似 ChatGPT 这类聊天软件会通过收集用户聊天内容用于训练而变得更聪明，其实不然，如果真是这样，那么微信就能做出世界上最强的大模型了。

其实普通人的日常聊天数据质量很差，尤其像 DeepSeek 需要在包含思维链的推理数据上进行训练，我们日常聊天数据根本不可用，甚至会起到反面作用。

DeepSeek 的推理能力主要来自于数学，这甚至都不需要人类标注，通过模型就可以生成。这个涉及底层原理，下文还会详细解释。

从这个角度推演，后续做模型数据标注的公司和岗位可能不是个好的就业方向，未来模型对人类标注需求会越来越少。

2、DeepSeek R1 厉害是因为偷偷蒸馏了 OpenAI 的模型

这里需要先给没有接触这个领域的普通人解释下「蒸馏」的概念。

蒸馏通常是指用一个强大的模型作为老师，将它的输出结果作为一个参数更小、性能更差的学生模型的学习对象，从而让学生模型变得更强大。

可以想见，蒸馏的学生模型性能几乎一定比老师模型更差，但 R1 模型在某些指标性能比 o1 更强，所以说 R1 蒸馏自 o1 站不住脚。

但具体是否蒸馏我们也不清楚，但我更倾向于它的核心推理能力不是依靠蒸馏而来的。

这里再往下追问，就又会涉及第三个问题。

3、跟 DeepSeek 聊天，他会自己提到 OpenAI ，所以它就是套了个壳

这个问题经常被拿出来反驳 DeepSeek。

比如早期刚出来的时候，很多人都会拿类似下面这个截图作为反例。

现在再去问它这个问题，他已经不会给出类似的答案了，说明官方对 OpenAI 相关的内容还是做了一定的屏蔽。

但能据此说它就是套壳吗？

我觉得不能。大模型不是人，它在训练时不知道自己究竟被谁训练，训练自己的机器是什么它也不清楚，就好像你虽然会开车，但对于车的轮胎、发动机、电池等是哪个厂商生产的，其实并不清楚。

它在训练过程中一定是利用了其他大模型生成的语料，但从最终的能力来看，绝非套壳那么简单。

接下来，我就尝试详细介绍下其中的原理。

二、尝试解释下底层原理

DeepSeek 最大的特点是「深度思考」能力。

「深度思考」在算法意义上，是目前大模型开发的最前沿技术。

DeepSeek 就是率先向用户展示了深度思考的中间结果，而且很像人在自我思考，在国际上引发了轰动。

深度思考是 OpenAI 先引入的，但在其领先的 o1 模型中，中间思考没输出，技术细节也按惯例神秘化不说清楚，夸大实力。

Deepseek 向全球公布了训练深度思考的完整机制，让业界惊叹，这是继「涌现」之后最重要的大模型研发成果。

（关于涌现效应可以看我之前的文章涌现效应）

机器自言自语思考越来越厉害，居然可以直接「强化学习」，不要人类中间提示，只靠最终答案训练出来。

这样讲有点抽象，我们可以拿曾经红极一时的阿尔法狗来举例。

AlphaGo 首先用人类棋谱训练神经网络，然后通过设计一套奖励函数，让模型自我对弈进行强化学习。如果没有模型自我对弈，它绝不可能超越人类棋手。

而后，他们发现，其实根本不需要给 AI 喂人类高手的对局棋谱，只要告诉它围棋的基本规则，让模型自我对弈，赢了就奖励、输了就惩罚，模型就能很快从零开始学会围棋并超越人类，研究人员把这个模型称为 AlphaZero，因为它不需要任何人类知识。

这里可能有一点儿反直觉，但事实就是如此，无需任何人类棋局作为训练数据，仅靠自我对弈，模型就能学会围棋，甚至这样训练出的模型，比喂人类棋谱的 AlphaGo 更强大。

也就是说，人类的经验反而限制了模型的发挥。

理解了这个就能明白，为什么 2024 年底大模型预训练撞墙后，使用强化学习来训练模型思维链成为了所有人的新共识。

不同于 ChatGPT 和 GPT-4/4o，在 o1/o3 这类 Reasoning 模型的训练过程中，人类反馈已经不再重要了，因为可以自动评估每一步的思考结果，从而给予奖励/惩罚。

DeepSeek 也是基于这个原理诞生的。它极大地提高了某些特定、客观可测量任务（如数学、编码）的性能。因为数学和编码是人类发明的工具中最客观且可测量的部分，并且不需要人类标注，模型自己就能生成。同时，一个数学题的解题过程，我们可以通过正则表达式匹配出思考过程和最终回答，从而对模型的推理结果进行定量评估。

以此训练出的推理能力，远远强于所有以前依靠人类标注的模型的能力。

仅依赖人类的标注，AI 就永远无法逃出人类思维的枷锁。

有了基础的推理能力之后，再拓展写作、总结等通用能力，就完成了如今我们看到的 DeepSeek。

三、写在最后

从 DeepSeek 身上，我们终于看到了 AI 突破人类桎梏的可能性。

曾经，所谓的人工智能都是靠「人工」堆出来的，没有人工 AI 什么都做不了。

而如今，人类的反馈已不再重要。

如果 AI 能根据三角形的基本特点推导出勾股定理，那么终有一天，它也能推导出现有数学界尚未发现的定理。

从这个角度看，AI 取代程序员的一天也许会比我们想象的还要快得多。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

从原理上理解 DeepSeek

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、常见的一些误解

二、尝试解释下底层原理

三、写在最后

面对价格战，中国车市“内卷”问题如何解？

灯塔智造专题|2025我国智能制造产业分析

抓好粮食和重要农产品稳产保供

人工智能资讯|阿里巴巴投入30亿元红包：通仪千文旨在春节期间重建AI超级入口

行业资讯|恒力集团与中国进出口银行签署战略合作协议

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、常见的一些误解

二、尝试解释下底层原理

三、写在最后

一文读懂DeepSeek（深度求索）：有限计算资源下的顶尖大模型

Deepseek与其它模型的差异有哪些？

相关推荐

联系我们

微信扫一扫关注我们