深度解析deepseek背后的技术原理-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

一、DeepSeek公司及其大模型介绍

1.1 公司概况

DeepSeek于2023年7月在杭州成立，是幻方量化旗下子公司，全称为杭州深度求索人工智能基础技术研究有限公司。成立仅一年多，却已成为行业焦点。近期新闻热点不断，其推出的V3表现出色，可与OpenAI的4o媲美，训练成本不到600万美元，API定价仅是国内其他头部厂商的几十分之一，APP在中美APP store登上免费应用榜首。
从官网信息来看，DeepSeek近半年连续推出3个主要大模型版本，即DeepSeek V2.5、DeepSeek V3、DeepSeek-R1，均采用MOE架构。此前，还推出过DeepSeek-VL、DeepSeek Coder、DeepSeek Math。

1.2 模型能力

DeepSeek模型已对标国内Qwen、海外Llama、GPT 4o。从公布的榜单评测结果可知，DeepSeek-V3在开源模型中位居榜首，与世界最先进的闭源模型实力相当。

1.3训推成本

• 推理成本：API报价中，百万Token输入价格可达1元。
• 训练成本：DeepSeek使用2000张左右H800 GPU进行训练，根据技术报告，V3正式训练成本不超过600万美元。在预训练阶段，每万亿Token训练V3使用2048个H800 GPU集群，仅需180K个H800 GPU小时，约3.7天（180000÷2048÷24）。整个预训练总耗时2664K GPU小时（不到2个月），加上上下文扩展和后训练，总耗时约2788K GPU小时。按H800每小时2美元租赁计算，训练成本得以控制。如此低的推理和训练成本，引出诸多疑问，如模型采用何种网络架构、训练精度、框架和并行策略如何，模型部署和优化方案怎样，以及在硬件层计算和通信上做了哪些优化。

二、DeepSeek训推核心技术

2.1 DeepSeek-V3模型网络架构

DeepSeekV3整体预训练使用14.8万亿高质量Token，并在后期进行SFT和RL，模型参数量达671B，但每个Token仅激活37B参数。为实现高效推理和训练，DeepSeekV3自研MLA注意力机制和无辅助损失负载均衡策略的MoE架构。其采用经典Transformer架构，亮点在于前馈网络使用DeepSeekMoE架构，Attention机制使用MLA架构，这两种架构在DeepSeekV2模型中已得到验证。与DeepSeek-V2相比，V3额外引入无辅助损失的负载均衡策略，用于DeepSeekMoE，以减轻因保证Expert负载均衡导致的性能下降。

• DeepSeekMoE：GShard架构首次将MoE架构引入Transformer网络。与传统大模型架构相比，MoE架构在数据流转过程中集成专家网络层。传统MoE基本由Gating门控网络和稀疏MoE层两部分组成。稀疏MoE层代替传统Transformer模型中的前馈网络(FFN)层，包含若干“专家”（如8个），每个专家是独立神经网络，通常为前馈网络，也可是更复杂网络结构，甚至形成层级式MoE结构。门控网络用于决定Token发送到哪个专家，Token路由方式是MoE使用关键，路由器由学习参数组成，与网络其他部分一同预训练。

与传统MoE架构相比，DeepSeekMoE使用更细粒度专家，并隔离部分专家为共享专家，减少知识冗余。门控网络路由策略中，TopK表示第t个Token和所有路由专家计算出的亲和力分数中K个最高分数的集合，DeepSeekV3中用sigmoid函数计算亲和力分数，再对选择的亲和力分数归一化生成门控值。MoE模型训练时，不同专家因路由策略导致训练数据分布不均，业界通用解决方案是引入辅助损失，但过大辅助损失会损害模型性能。DeepSeek开创无辅助损失的负载均衡策略，为每个专家引入偏差项，添加到亲和力分数确定top-K路由。若专家过载，减少偏差项γ；若负载不足，增加偏差项γ，γ是偏差更新速度超参数。门控网络本质是softmax叠加分类网络，辅助loss通常是添加惩罚项，惩罚输出过大的logits，防止模型输出极端。

• MLA多头潜在注意力：大模型推理过程中，KV Cache机制常限制推理效率，标准Transformer架构的MHA架构产生大量KV Cache。为减少KV Cache，业界尝试多种方案，如PagedAttention、多查询注意力（MQA）和分组查询注意力（GQA），但性能较原生MHA有差距。DeepSeek-V2提出创新的多头潜在注意力（MLA）。与MQA的KV共用和GQA的KV分组不同，MLA核心是注意力键和值的低秩联合压缩，减少推理时键值(KV)缓存，性能优于MHA，所需KV缓存量少得多。低秩矩阵是秩远小于行数和列数的矩阵，可分解为两个较小矩阵乘积。如4×5矩阵A可由4×2矩阵B和2×5矩阵C乘积表示，表明A是低秩矩阵。低秩压缩计算核心过程涉及输入、投影矩阵等运算，将Token输入降维压缩得到缓存的KV压缩隐向量，再通过升维投影矩阵复原为原始KV矩阵。

2.2 训练推理核心技术

• 训练框架HAI-LLM：DeepSeek-V3在配备2048个NVIDIA H800 GPU的集群上训练，使用自研HAI-LLM框架。该框架实现四种并行训练方式：ZeRO支持的数据并行、流水线并行、张量切片模型并行和序列并行，可支持数万亿规模超大模型并扩展到数千个GPU。同时，自研高性能算子haiscale，极大优化大模型训练的显存效率和计算效率。

• 核心算法DualPipe-创新流水线并行算法：

• 通信计算重叠优化：DeepSeek-V3应用16路流水线并行（PP），跨越8个节点的64路专家并行（EP），以及ZeRO-1数据并行（DP）。与现有流水线并行方法相比，DualPipe流水线气泡更少，同时重叠前向和后向过程的计算和通信阶段，解决跨节点专家并行带来的沉重通信开销问题。DualPipe关键思想是重叠一对单独的前向和后向块中的计算和通信，将每个块划分为四个组件：注意力、all-all调度、MLP和all-all组合。例如有两个计算块A和B，块A进行前向传播计算时，可同时进行块B的后向传播通信过程；块A完成前向传播计算后，开始通信过程，块B开始前向传播计算。通过优化排列功能模块，精确调控GPU SM资源分配比例，系统可有效隐藏全节点通信和PP通信开销，即使是细粒度的all-all专家通信，all-all的通信开销也几乎为0。在深度学习大规模分布式训练中，通信速度常落后于计算速度，实现计算通信重叠是高效训练的关键。而采用流水线并行策略的大模型，不同层有依赖关系，会导致GPU闲置，产生流水线并行气泡问题。

• 跨节点全对全通信：DeepSeek定制高效的跨节点all-all通信内核（包括调度和组合）。跨节点GPU通过IB完全互连，节点内通信通过NVLink处理，每个Token最多调度到4个节点，减少IB通信量，同时使用warp专业化技术优化调度和组合。调度过程中，IB发送、IB到NVLink转发、NVLink接收分别由各自的warp处理，分配给每个通信任务的warp数根据实际工作负载动态调整。合并过程中，NVLink发送、NVLink到IB的转发和累积、IB接收和累积也由动态调整的warp处理。通过这种方式，IB和NVLink通信完全重叠，每个token能在不产生NVLink额外开销的情况下，在每个节点上平均高效选择3.2个专家。这意味着，虽然DeepSeek-V3实际只选择8个路由专家，但可扩展到最多13个专家（4个节点×3.2个专家/节点），同时保持相同通信成本。DSV3采用1个共享专家和256个路由专家的MoE架构，每个token会激活8个路由专家。

• 用于FP8训练的混合精度框架：并非全量参数FP8量化训练，多数计算密集型操作采用FP8，部分关键操作保留原始数据格式，以平衡训练效率和数值稳定性。大多数核心计算过程（GEMM运算）以FP8精度实现；涉及对低精度计算敏感的算子，仍需更高精度；一些低成本算子也可使用更高精度。Embedding模块、输出头、MoE门控模块、Normalization算子以及Attention算子保留原始精度（如BF16或FP32）。为提高低精度训练精度，采用细粒度量化，对激活在token维度采用group-wise量化(1128)，对权重采用128 128的block-wise量化；提高累加精度，在TensorCore上执行矩阵MMA（矩阵乘法累加）操作时，累加达到间隔时，部分结果传输到CUDA Cores上的FP32寄存器，进行FP32精度累加计算。

• MTP的训练目标：DeepSeekV3训练设置多Token预测目标，技术报告消融实验表明，该目标提高了模型在大多数评估基准上的性能，且MTP模块可用于推理加速。

• 推理部署方案：DeepSeek-V3参数量达671B，推理部署采用预填充(Prefilling)和解码(Decoding)分离策略，确保在线服务高吞吐量和低延迟。通过冗余专家部署和动态路由策略，模型推理时保持高效负载均衡，采用跨机分布式推理。

• Prefill阶段：并行处理用户Prompt，转为KV Cache。最小部署单元由4个节点组成，每个节点配备32个GPU。注意力部分采用4路张量并行（TP4）和序列并行（SP），结合8路数据并行（DP8），较小的TP规模（4路）限制了TP通信开销。MoE部分使用32路专家并行（EP32）。

• Decoder阶段：进行自回归的每个Token输出。最小部署单元由40个节点和320个GPU组成。注意力部分采用TP4和SP，结合DP80，MoE部分使用EP320。MoE部分每个GPU只承载一个专家，64个GPU负责承载冗余专家和共享专家。

三、为什么DeepSeekV3训练成本低

训练成本主要由模型架构和训练架构决定，两者相辅相成。DeepSeekV3训练成本低的原因如下：

• MLA机制：通过对KV做联合低秩压缩大幅减少KV Cache，相比业界从KV数量角度减少KV Cache，MLA的压缩实现更考验研究团队能力。

• FP8训练：通过低精度计算减少GPU内存使用和计算开销，技术报告显示FP8混合精度训练框架首次在极大规模模型上验证有效性，体现DeepSeek的Infra工程团队实力。

• MoE架构：通过MoE稀疏激活机制大幅减少计算量，相比Qwen和Llama的Dense架构，在训推上有先天优势，当然也给Infra工程团队带来专家负载、通信、路由等难题。

四、为什么是DeepSeek

在硅谷，类似DeepSeek的AI创新并不罕见，但这次是中国公司取得突破，与传统的“美国创新、中国应用”模式不同，令人振奋。从近期访谈和技术报告可看出：
• 大模型是知识密集型产业，DeepSeek成功组织起高密度人才。
• 大模型技术注重基本功和驱动力，而非依赖魔法。
• DeepSeek不以商业化为第一要义，能够轻装上阵开展研究。

五、一些个人思考

• 长远来看，未来可能出现专门适配Transformer架构的芯片，就像为卷积设计的ASIC芯片。
• 多Token预测、MoE架构可能在很长一段时间内都是大模型训推架构的热门研究方向。
• 在国内，AI应用比基础研究更有市场和话语权，但基础创新与海外的代际差距会逐渐缩小。
• 大模型训练和推理中，软硬件是协同生态，DeepSeek的出现将促进AI全行业更快速、低成本地迭代。
• 由于时间仓促，很多技术细节值得深入学习研究，若有错误，还望海涵。

参考资料：
1. Better & Faster Large Language Models via Multi-token Prediction
2. https://kexue.fm/archives/10091
3. https://arxiv.org/pdf/2404.19737v1
4. https://arxiv.org/pdf/2412.19437
5. https://arxiv.org/pdf/2405.04434
6.https://www.zhihu.com/question/8423473404
7. https://arxiv.org/pdf/1811.06965

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

深度解析deepseek背后的技术原理

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、DeepSeek公司及其大模型介绍

二、DeepSeek训推核心技术

三、为什么DeepSeekV3训练成本低

四、为什么是DeepSeek

五、一些个人思考

保障农民工工资支付条例

学习率是什么？

7个产业集群产值超万亿元！广东制造业接下来要这么做（摘要）

智能制造产业链网络层包含哪些内容？

横店东磁的数字化转型之路

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一、DeepSeek公司及其大模型介绍

二、DeepSeek训推核心技术

三、为什么DeepSeekV3训练成本低

四、为什么是DeepSeek

五、一些个人思考

从 DeepSeek R1 看未来：揭秘爆火 AI 模型背后的技术原理，探索 AI 的下一大步

R1和 Zero的区别是什么？

相关推荐

联系我们

微信扫一扫关注我们