数智化转型网szhzxw.cn 数字化转型网专题栏目 从 DeepSeek R1 看未来:揭秘爆火 AI 模型背后的技术原理

从 DeepSeek R1 看未来:揭秘爆火 AI 模型背后的技术原理

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

今年春节,AI 领域热闹非凡,DeepSeek 一路 “狂飙”,在美国科技界和美股市场掀起惊涛骇浪,1 月 27 日,美国三大股指开盘即暴跌,英伟达、微软、谷歌母公司 Alphabet、Meta 等美国主要科技股均遭遇股市地震,其中英伟达跌近 17%,单日市值蒸发约 6000 亿美元,创美股最高纪录。

DeepSeek 以开源的特性和极低的成本,在数学、编程、自然语言推理等任务上表现出色,性能不亚于美国顶级 AI 模型。特别是 DeepSeek-R1,通过创新性运用强化学习技术,以极少量标注数据实现了推理能力的跨越式提升。

在数学、编程、语言理解等核心能力上,完美比肩 OpenAI o1。这一系列创新成果不仅得到了行业的广泛认可,也让世界看到了中国 AI 技术的崛起之势。近年来,中国 AI 发展迅猛,在基础研究、技术创新和应用落地等多方面全面开花。越来越多的国产大模型崭露头角。今天我将从宏观角度为大家介绍 DeepSeek R1 所代表的大规模强化学习技术,及其基本原理(作者 | 刘知远,清华大学长聘副教授,面壁智能首席科学家)。同时,我们也会探讨为什么 DeepSeek R1 和 OpenAI o1 能够引起如此多的关注,并从 Deepseek 最近发布的模型中,对大模型技术的未来发展进行大致研判。

首先,我们来看 DeepSeek 最近发布的 R1 模型,它具有非常重要的价值。这种价值主要体现在 DeepSeek R1 能够完美复现 OpenAI  o1 的深度推理能力。

因为 OpenAI o1 本身并没有提供关于其实现细节的任何信息 ,OpenAI o1 相当于引爆了一个原子弹,但没有告诉大家秘方。而我们需要从头开始,自己去寻找如何复现这种能力的方法。DeepSeek 可能是全球首个能够通过纯粹的强化学习技术复现  OpenAI o1 能力的团队,并且他们通过开源并发布相对详细的介绍,为行业做出了重要贡献。

我们可以大致总结了 DeepSeek R1 的整个训练流程,它有两个非常重要的亮点或价值。

首先,DeepSeek R1 创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero。这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。

DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力的原因。这种泛化能力的实现分为两个阶段。首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning,监督微调)数据。这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1

因此,DeepSeek R1 的重要贡献体现在两个方面:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化。这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

所以,我们其实应该非常重视 DeepSeek R1。它由于开源,让全球的人能够意识到深度思考的能力,这相当于让整个人工智能领域再次迎来了类似于 2023 年初 ChatGPT 的时刻,让每个人感受到大模型的能力又往前迈进了一大步。但同时,我们也需要合理地评估 DeepSeek 本身的重要意义。如果说 2023 年初 OpenAI 发布的 ChatGPT 让全球看到了大模型非常重要的价值,那么这一次的强推理能力其实也是 OpenAI 在 2024 年 9 月发布的 o1 率先实现的。而 DeepSeek R1,我们认为它在历史上更像是 2023 年 Meta 的 LLaMA。它能够通过开源复现,并且把这些事情全部公开给全球,让大家能够快速地建立起相关能力,这是我们对 DeepSeek R1 及其重要意义的一个准确认识。

当然,为什么说 DeepSeek R1 能够取得如此全球性的成功呢?我们认为这与 OpenAI 采用的一些策略有非常大的关系。OpenAI 在发布 o1 之后,首先选择不开源,其次将 o1 深度思考的过程隐藏起来,第三是 o1 本身采用了非常高的收费。这使得 o1 无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼。而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样,让所有人真正感受到了这种震撼,这是 DeepSeek R1 出圈的非常重要的原因。

如果我们进一步将 DeepSeek 发布的 R1 和之前的 V3 结合起来考虑,那么它的意义在于:在非常有限的算力资源支持下,通过强大的算法创新,突破了算力瓶颈,让我们看到即使在有限的算力下,也能做出具有全球意义的领先成果。这件事对中国 AI 的发展具有非常重要的意义。当然,我们也应该看到,AI 如果想要真正赋能全人类,让每个人都能够用得上、用得起大模型和通用人工智能,那么高效性显然是一个非常重要的命题。在这个方面,我们其实有非常多的话题可以去讨论。除了强化学习本身需要在未来探索更加高效的方案之外,我们还需要研究出更加高效的模型架构。例如,V3 所采用的 MoE 架构,未来应该也会有许多其他相关的高效架构方案。进一步地,高效的算力应用等话题也值得探讨研究。这其实也是 DeepSeek V3 和 R1 带给我们的另一个非常重要的启示。我们认为,整个人工智能的发展在未来追求高效性是我们内在的一个使命和需求。

从这个方面,我想适当展开一点来介绍。我们看到上一次所谓的科技革命,也就是信息革命,其非常重要的内核实际上是计算芯片的发展。在过去 80 年时间里,计算机从最初需要一个屋子才能装得下的规模,发展到如今每个人手边都有的手机、PC,以及各种各样的计算设备,都可以在非常小的设备上完成非常强大的计算能力。所有这一切,其实都源于芯片行业在摩尔定律的指引下,不断推进芯片制程,提升芯片电路密度,从而实现计算设备的小型化和普惠化,推动算力的普及。这显然是我们未来追求高效性的一个非常重要的内在需求。

这也是为什么我们在去年特别强调要发展大模型的能力密度。实际上,过去几年我们也能看到类似摩尔定律的现象:大模型的能力密度正以时间的指数级增强。从 2023 年以来,大模型的能力密度大约每 100 天翻一倍,也就是说,每过 100 天,我们只需要一半的算力和一半的参数就能实现相同的能力。因此,我们相信,面向未来,我们应该不断追求更高的能力密度,努力以更低的成本——包括训练成本和计算成本——来实现大模型的高效发展。从这一点来看,我们显然可以看到,如果按照能力密度的发展趋势,我们完全可以实现每 100 天用一半的算力和一半的参数,达到相同的模型能力。而推动这件事情,应当是我们未来发展的使命。

所以,如果我们对标上一个科技革命——也就是信息革命,显然对我们即将到来的智能革命有着非常重要的启示。实际上,在信息革命刚刚开始的时候,IBM 的创始人沃森曾认为,世界上不需要超过五台主机就可以满足全世界的计算需求。但到了今天,我们可以看到全球有数十亿、上百亿的计算设备在服务于全人类社会。因此,我们认为智能革命显然也要走过一条类似于信息革命的阶段,不断去提高能力密度,降低计算成本,让大模型得以更加普惠。所以,我认为 AI 时代的这些核心引擎,包括电力、算力以及大模型所代表的智力,这种密度定律应该是普遍存在的。我们需要不断地通过高质量、可持续的方式去实现大模型的普惠,这应该是我们未来的发展方向。

面向未来,我们认为人工智能有三大主战场,它们的目标都是让通用人工智能达到顶尖水平。首先,我们要探索人工智能的科学化技术方案,实现更科学、更高效的人工智能实现方式。其次,我们要实现计算系统的智能化,能够在计算层面以更低的成本、更通用地将大模型应用于各个领域。最后,我们也要在各个领域探索人工智能的广谱化应用。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/76613.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部