DeepSeek关键技术解析与评述-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

作者：邹德虎

本文主要参考DeepSeek公司发表的2篇论文，分别为:《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这2篇论文可以在DeepSeek API 文档中查阅。

评述部分主要是以我个人的经验（大多数与电力系统专业有关）产生的想法，仅供参考。

1、训练过程

初始阶段，DeepSeek公司已经拥有一个底座模型：DeepSeek-V3-Base，这是在海量数据基础上训练得到的，这是 DeepSeek-V3 和 DeepSeek-R1 的基础。DeepSeek-V3-Base是Mixture-of-Experts (MoE) 架构，总参数量是671B。

DeepSeek-R1模型专注于推理能力，通过涉及强化学习和冷启动数据的多阶段过程开发。DeepSeek-V3模型实现强大的一般性能，包括推理、知识和语言理解，同时保持低成本。它受益于 DeepSeek-R1 的提炼，以增强其推理能力。

DeepSeek-R1和DeepSeek-V3模型是互相迭代的产物，是同时期发展起来的。我猜测：DeepSeek-R1和DeepSeek-V3有内部的小版本，DeepSeek-R1 的初始版本可能仅使用 DeepSeek-V3-Base 数据进行训练。然后，DeepSeek-V3的某个内部版本从初始的DeepSeek-R1 中提取的数据进行训练改进。随后，这个改进的DeepSeek-V3 又训练了DeepSeek-R1的下一个内部版本。

2025年春节期间，最引人关注的模型是DeepSeek-R1模型，因为这是用户首次在OpenAI-o1模型之外，体验到具备实用性的深度推理模型，其思维深度可以帮助用户解决真正具有复杂性的实际问题。考虑到该模型是开源的，可以大量本地部署。因此该模型的发布成为2025年春节期间全球最大的新闻，其影响力远远超过科技界。

2、DeepSeek-R1关键技术

DeepSeek公司直接在基础模型上应用大规模强化学习（RL），无需监督微调（SFT）作为预训练步骤。这种方法允许模型探索思维链（CoT）来解决复杂问题，从而开发出 DeepSeek-R1-Zero。这是巨大的突破，OpenAI虽然之前也实现了类似的功能，但OpenAI从未对外发表、公开技术细节，反而藏着掖着，很多人嘲讽他们变成了“ClosedAI”。从学术的角度，DeepSeek公司是人类首次发表这个关键技术。

DeepSeek公司强化学习的算法采用GRPO算法，这是不用单独的评判员,而是采用”群体对比”的方法。对同一个问题q,让模型生成多个答案(比如10个)，把这10个答案的质量互相对比,找出相对好坏。这样就提高强化学习的效率。

在奖励标准方面，主要包括两种类型的奖励：

准确性奖励：评估响应是否正确。例如，在具有确定性结果的数学问题的情况下，模型需要以指定的格式（例如，在一个框内）提供最终答案，从而能够可靠地基于规则验证正确性。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励：除了准确性奖励模型之外，还采用了格式奖励模型，强制模型将其思维过程放在<think>和</think>标签之间。

在启动DeepSeek-R1-Zero训练时，首先设计了一个简单的模板来指导基础模型遵守指令，如下：

用户和助手之间的对话。用户提问，助手解答。助手首先思考推理过程，然后为用户提供答案。推理过程和答案分别用 <think> </think> 和 <answer> </answer> 标签括起来，例如，<think> 此处为推理过程 </think> <answer> 此处为答案 </answer>。用户：prompt。

训练时，prompt 将被替换为特定的推理问题。

DeepSeek-R1-Zero 的思维时间在整个训练过程中持续改进。这种改进不是外部调整的结果，而是模型内部的内在发展。在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的出现。在论文中，作者惊喜的直接展示，我这里也直接拷贝过来，说不定这个案例具有历史纪念意义：

这个顿悟时刻很有点像“2001太空漫游”电影里，猿猴摸过黑石之后，突然灵光乍现，产生了顿悟。没看过该电影的读者可以自动跳过这一段。

我这里简单解释一下，关键的”顿悟时刻”可能是这里：每次对方程进行平方运算时，都可能引入额外的解因为如果 A² = B²，不仅意味着 A = B，也可能是 A = -B。这就意味着AI在推导过程中，突然发现之前的推导有问题，需要重新推导。

尽管 DeepSeek-R1-Zero 表现出强大的推理能力，并自主发展出意想不到的强大推理行为，但它也面临着一些问题。主要的问题是推理链中是中文、英文混用的(OpenAI的o3也存在这一问题)，因此DeepSeek公司进一步训练出实用性的DeepSeek-R1模型。DeepSeek-R1训练的关键技术如下：

使用冷启动进行强化学习，构建并收集了少量长思维链数据来微调模型作为初始，这就不是完全的无监督微调了，是实用性的步骤。主要是增强了可读性，因为DeepSeek-R1-Zero 的一个关键限制是其内容通常不适合阅读。响应可能会混合多种语言，或者缺少 Markdown 格式来突出显示用户的答案。
引入了语言一致性奖励，这种对齐会导致模型性能略有下降，但这种奖励与人类偏好一致，使其更具可读性。
拒绝采样和监督微调，采用来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。对于非推理数据，例如写作、事实问答、自我认知和翻译，采用 DeepSeek-V3的部分数据进行微调。
适用于所有场景的强化学习，对于推理数据，继续遵循 DeepSeek-R1-Zero 中概述的方法，该方法使用基于规则的奖励来指导数学、编程和逻辑推理领域的学习过程。对于一般数据，采用奖励模型来捕捉复杂和细微场景中的人类偏好。这里需要采用DeepSeek-V3数据。奖励信号和多样化数据分布的整合最终训练出一个在推理方面表现出色，同时具有实用性和安全性的模型。

接下来DeepSeek讨论了蒸馏技术，可以赋予小型模型推理能力。本文不再展开。

下面是我的一些评述：直接从基础模型开始，通过与环境的交互和奖励信号的引导，自主学习生成思维链能力，进一步解决问题。这对于人的教育和培训有着重要的启发。

想象一下，我们正在教一个小孩学习解决数学应用题。这个小孩 (基础模型) 已经掌握了一些基本的数学知识和语言能力，但还不会解题。我们会给小孩一些应用题 (环境)，并告诉他解题的规则和格式 (提示工程)。例如，要求他先一步一步写出解题思路，最后再给出答案。小孩尝试解答这些题目，并给出答案。我们会根据他的答案 (模型输出) 判断对错，并给予相应的奖励或惩罚 (奖励模型)。如果小孩做对了，我们会给他奖励 (例如糖果)；如果做错了，就给他惩罚 (例如罚抄题目)。小孩会根据奖励和惩罚来调整自己的解题策略。他可能会尝试不同的思路，或者更仔细地检查每一步计算。通过不断练习和反馈，小孩最终学会了如何用思维链的方式解题，并且能够举一反三，解决更多类型的题目。

这也很像苏格拉底的引导式教学，苏格拉底通常不会直接告诉学生答案，而是通过一系列问题，引导学生一步步思考，最终发现真理。

AI 的发展启示我们，在未来的教育中，单纯记忆知识的重要性将逐渐降低，而培养学生的 “思维链” 能力，即掌握系统性地分析问题、解决问题的方法论，将变得至关重要。这也是我以前的公众号文章经常讲到的，解决电力系统复杂问题要有系统性、宏观性的视角和建立于大量实践基础上的方法论，而不是头痛医头、脚痛医脚的工作方式。

对于电力系统的工程师培训来说，启发也是很大的：电力系统工程师的培养，应重视扎实的基础理论知识体系构建，如同 DeepSeek-V3-Base 的基础模型。但更重要的是，要强调在实践中应用理论知识的能力，如同 DeepSeek-R1 通过强化学习，在解决复杂推理问题上取得突破。传统的电力系统工程教育，可能过于注重理论知识的灌输，而相对忽视了学生在复杂、真实场景下应用知识、解决问题的能力培养。借鉴 DeepSeek-R1 的训练思路，未来的电力系统工程师培养，实践环节应该是最重要的步骤。

电力系统工程领域的问题往往具有高度的复杂性和系统性，需要工程师具备严谨的逻辑思维和系统性的分析方法。例如，在进行电力系统故障分析时，工程师需要沿着 “故障现象 -> 故障原因分析 -> 故障影响评估 -> 故障处理方案制定” 这样一条清晰的 “思维链” 进行思考和决策。

很多人担心AI代替人类。但是，没有大量实践，一个外行是无法一针见血的发现并提出关键问题的，他只能泛泛的问一些科普问题，不足以解决系统性难题。正是在这个意义上，我认为，与其过度担忧 AI 的 “替代” 效应，不如更积极地思考如何利用 AI 技术来增强人类的专业能力，提升解决复杂问题的效率和水平。

3、DeepSeek-V3关键技术

DeepSeek-V3的核心贡献是实现低成本，因此论文涉及比较多的工程细节。在这里大概的介绍：DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，开创了一种无辅助损失的负载平衡策略，并设定了多 token 预测训练目标以增强性能。在后训练阶段，DeepSeek-V3 进行了监督微调和强化学习，并从 DeepSeek-R1 模型中提取推理能力。在浮点计算方面，采用混合精度框架，降低了计算开销，同时保证数值稳定性。

在硬件架构方面，训练集群中，跨节点 GPU 通过 IB 完全互连，节点内通信通过 NVLink 处理。NVLink 提供 160 GB/s 的带宽，大约是 IB (50 GB/s) 的 3.2 倍。DeepSeek-V3 采用了 MoE 架构，相比传统的密集 Transformer 模型，MoE 可以更有效地扩展模型规模，并在训练和推理过程中节省计算资源。这里面涉及到复杂的硬件设计和高性能通信设计。

我读DeepSeek-V3论文主要的感受是：软硬件技术结合是复杂系统的关键难点。计算机专业的学生往往喜欢纯软件和算法研究，这些研究很好写论文。但是对于电子电路、高性能通信、计算机体系结构等底层技术不感兴趣，恰巧这些回避的地方是最关键的地方。

电力系统本身就是一个高度复杂的软硬件结合系统，从底层的电力设备 (例如发电机、变压器、线路等) 到上层的控制和调度系统，都涉及到硬件和软件的深度融合。硬件是基础，软件是灵魂。高性能的硬件基础设施 (例如高性能计算集群、高速通信网络、智能传感器等) 是实现先进电力系统应用的前提。而软件 (例如算法、模型、控制策略等) 则是发挥硬件性能、实现系统智能化的关键。

对于电力系统研发人员的人才培养，还是需要精通底层、愿意做基础性工作的人才，才能真正做出具有生产实用意义的产品。但相关的困难实在太多，这里点到为止。

声明：本文来自深入理解电力系统，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于深入理解电力系统；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

DeepSeek关键技术解析与评述

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

1、训练过程

2、DeepSeek-R1关键技术

3、DeepSeek-V3关键技术

临工重机：制造插上数字化“翅膀”，效率显著提高

什么是VPN？

沙特阿美的人工智能创新优势使其处于行业领先地位

家电出海案例|海尔家电出海东南亚，用的是这么一套组合拳

Cursor放大招！CLI版本震撼发布，终端也能玩转AI编程！

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

1、训练过程

2、DeepSeek-R1关键技术

3、DeepSeek-V3关键技术

万字长文剖析DeepSeek的颠覆之战

DeepSeek概念产业链情况分析

相关推荐

联系我们

微信扫一扫关注我们