从原理上理解 DeepSeek

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

这个春节最火的就数 DeepSeek 了。

但舆论对于大模型还是有很多误解,这篇文章想消除大家常见的一些误会,并详细说说 DeepSeek R1 底层原理的突破。

当然,作为一个普通的吃瓜群众,我也没有办法做到非常深入,如有错误欢迎指正。

一、常见的一些误解

1、大模型会收集用户聊天内容用于训练

这是对大模型最常见的一个误解。

很多人认为类似 ChatGPT 这类聊天软件会通过收集用户聊天内容用于训练而变得更聪明,其实不然,如果真是这样,那么微信就能做出世界上最强的大模型了。

其实普通人的日常聊天数据质量很差,尤其像 DeepSeek 需要在包含思维链的推理数据上进行训练,我们日常聊天数据根本不可用,甚至会起到反面作用。

DeepSeek 的推理能力主要来自于数学,这甚至都不需要人类标注,通过模型就可以生成。这个涉及底层原理,下文还会详细解释。

从这个角度推演,后续做模型数据标注的公司和岗位可能不是个好的就业方向,未来模型对人类标注需求会越来越少。

2、DeepSeek R1 厉害是因为偷偷蒸馏了 OpenAI 的模型

这里需要先给没有接触这个领域的普通人解释下「蒸馏」的概念。

蒸馏通常是指用一个强大的模型作为老师,将它的输出结果作为一个参数更小、性能更差的学生模型的学习对象,从而让学生模型变得更强大。

可以想见,蒸馏的学生模型性能几乎一定比老师模型更差,但 R1 模型在某些指标性能比 o1 更强,所以说 R1 蒸馏自 o1 站不住脚。

但具体是否蒸馏我们也不清楚,但我更倾向于它的核心推理能力不是依靠蒸馏而来的。

这里再往下追问,就又会涉及第三个问题。

3、跟 DeepSeek 聊天,他会自己提到 OpenAI ,所以它就是套了个壳

这个问题经常被拿出来反驳 DeepSeek。

比如早期刚出来的时候,很多人都会拿类似下面这个截图作为反例。

现在再去问它这个问题,他已经不会给出类似的答案了,说明官方对 OpenAI 相关的内容还是做了一定的屏蔽。

但能据此说它就是套壳吗?

我觉得不能。大模型不是人,它在训练时不知道自己究竟被谁训练,训练自己的机器是什么它也不清楚,就好像你虽然会开车,但对于车的轮胎、发动机、电池等是哪个厂商生产的,其实并不清楚。

它在训练过程中一定是利用了其他大模型生成的语料,但从最终的能力来看,绝非套壳那么简单。

接下来,我就尝试详细介绍下其中的原理。

二、尝试解释下底层原理

DeepSeek 最大的特点是「深度思考」能力。

「深度思考」在算法意义上,是目前大模型开发的最前沿技术。

DeepSeek 就是率先向用户展示了深度思考的中间结果,而且很像人在自我思考,在国际上引发了轰动。

深度思考是 OpenAI 先引入的,但在其领先的 o1 模型中,中间思考没输出,技术细节也按惯例神秘化不说清楚,夸大实力。

Deepseek 向全球公布了训练深度思考的完整机制,让业界惊叹,这是继「涌现」之后最重要的大模型研发成果。

(关于涌现效应可以看我之前的文章涌现效应

机器自言自语思考越来越厉害,居然可以直接「强化学习」,不要人类中间提示,只靠最终答案训练出来。

这样讲有点抽象,我们可以拿曾经红极一时的阿尔法狗来举例。

AlphaGo 首先用人类棋谱训练神经网络,然后通过设计一套奖励函数,让模型自我对弈进行强化学习。如果没有模型自我对弈,它绝不可能超越人类棋手。

而后,他们发现,其实根本不需要给 AI 喂人类高手的对局棋谱,只要告诉它围棋的基本规则,让模型自我对弈,赢了就奖励、输了就惩罚,模型就能很快从零开始学会围棋并超越人类,研究人员把这个模型称为 AlphaZero,因为它不需要任何人类知识。

这里可能有一点儿反直觉,但事实就是如此,无需任何人类棋局作为训练数据,仅靠自我对弈,模型就能学会围棋,甚至这样训练出的模型,比喂人类棋谱的 AlphaGo 更强大。

也就是说,人类的经验反而限制了模型的发挥。

理解了这个就能明白,为什么 2024 年底大模型预训练撞墙后,使用强化学习来训练模型思维链成为了所有人的新共识。

不同于 ChatGPT 和 GPT-4/4o,在 o1/o3 这类 Reasoning 模型 的训练过程中,人类反馈已经不再重要了,因为可以自动评估每一步的思考结果,从而给予奖励/惩罚。

DeepSeek 也是基于这个原理诞生的。它极大地提高了某些特定、客观可测量任务(如数学、编码)的性能。因为数学和编码是人类发明的工具中最客观且可测量的部分,并且不需要人类标注,模型自己就能生成。同时,一个数学题的解题过程,我们可以通过正则表达式匹配出思考过程和最终回答,从而对模型的推理结果进行定量评估。

以此训练出的推理能力,远远强于所有以前依靠人类标注的模型的能力。

仅依赖人类的标注,AI 就永远无法逃出人类思维的枷锁

有了基础的推理能力之后,再拓展写作、总结等通用能力,就完成了如今我们看到的 DeepSeek。

三、写在最后

从 DeepSeek 身上,我们终于看到了 AI 突破人类桎梏的可能性。

曾经,所谓的人工智能都是靠「人工」堆出来的,没有人工 AI 什么都做不了。

而如今,人类的反馈已不再重要。

如果 AI 能根据三角形的基本特点推导出勾股定理,那么终有一天,它也能推导出现有数学界尚未发现的定理。

从这个角度看,AI 取代程序员的一天也许会比我们想象的还要快得多。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/76634.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部