DeepSeek-V3 关键点解读：架构篇-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

整体优化：

与传统的效率优先不同，Deepseek系列更看重“成本”与“效率“的平衡。

如上表所示，在预训练阶段，训练DeepSeek-V3每万亿tokens仅需要180K H800 GPU小时，即在我们的2048个H800 GPU集群上3.7天。因此，我们的预训练阶段在不到两个月的时间内完成，耗时2664K GPU小时。加上119K GPU小时用于上下文长度扩展和5K GPU小时用于后训练，DeepSeek-V3的完整训练仅需要2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元，我们的总训练成本仅为557.6万美元。

模型设计：

架构部分：

DeepSeek-V3继续采用（1）Multi-head Latent Attention（MLA）以实现高效的推理，以及（2）DeepSeekMoE 以实现成本效益的训练，这两种架构在DeepSeek-V2中已经得到了验证。

Multi-Head Latent Attention (MLA)：

MLA的核心在于通过低秩联合压缩来减少注意力键（keys）和值（values）在推理过程中的缓存，从而提高推理效率：

对于Query，也执行相似的操作：

最终的注意力输出 ut 是通过将Query qt 与Key kt 进行softmax归一化后的点积，再乘以值 vt 来获得：

无辅助损失负载平衡的DeepSeekMoE：

在混合专家（MoE）模型中，专家负载的不平衡会导致路由崩溃或增加计算开销。传统的方法通常采用辅助损失来鼓励负载平衡，但过大的辅助损失会引入不可忽视的干扰梯度，从而损害模型性能。为了避免在训练过程中产生不良梯度，我们提出了一种无辅助损失的负载平衡策略（Loss-Free Balancing），通过动态调整每个专家的偏差来控制负载平衡，而不引入干扰梯度。

首先我们回顾一下DeepSeekMoE的基本流程：

针对专家负载不均衡的问题，我们为每个专家引入了一个偏置项 bi，并将其加到的亲和力得分 si,t 上：

需要注意的是，偏置项仅用于路由。与FFN输出相乘的门控值仍然来源于原始得分 s_{i,t} 。在训练过程中，我们持续监控每个训练步骤中整个批次的专家负载。在每个步骤的末尾，如果相应的专家过载，我们将减少偏置项 𝛾；如果相应的专家欠载，我们将增加偏置项 𝛾，其中 𝛾是一个称为偏置更新速度的超参数。通过动态调整，DeepSeek-V3 在训练期间保持专家负载平衡，并比通过纯辅助损失鼓励负载平衡的模型实现了更好的性能。

互补序列级辅助损失：

为了防止任何单个序列内的极端不平衡，我们还采用了互补的序列级辅助损失。这种损失鼓励每个序列中的专家负载保持平衡。

节点限制路由：

像DeepSeek-V2使用的设备限制路由一样，DeepSeek-V3也采用了一种受限的路由机制来限制训练过程中的通信成本。简而言之，我们确保每个token最多被发送到M个节点，这些节点是根据每个节点上分布的专家的最高Tr个亲和分数之和来选择的。

无Token丢弃：

由于有效的负载平衡策略，DeepSeek-V3在完整的训练过程中保持了良好的负载平衡。因此，在训练期间，DeepSeek-V3不会丢弃任何token。此外，我们还实施了特定的部署策略以确保推理时的负载平衡，所以DeepSeek-V3在推理期间也不会丢弃token。

多Token预测（Multi-Token Prediction/MTP）：

具体来说，我们的Multi-Token Prediction / MTP实现使用K个顺序模块来预测K个额外的Token。第i个MTP模块包括一个共享的特征层Emb(·)，一个共享的输出头OutHead(·)，一个Transformer块TRMi(·)，以及一个投影矩阵Wi∈Rd×2d。对于第i个输入Tokenti，在第i个预测深度，我们首先结合第(i-1)深度的第i个Token的表示hi-1∈Rd和第(i+1)个Token的嵌入d(ti+1)∈Rd，通过线性投影：

需要注意的是，对于每个MTP模块，其嵌入层与主模型共享。结合后的h’i作为第i深度的Transformer块的输入，产生当前深度的输出表示hi：

其中d表示输入序列长度，i:表示切片操作（包括左右边界）。最后，以hi为输入，共享的输出头将计算第i个额外预测Token的概率分布：

输出头OutHead(·)将表示线性映射到logits，然后应用Softmax(·)函数计算第i个额外Token的预测概率。同时，对于每个MTP模块，其输出头与主模型共享。

MTP训练目标：

我们计算一个交叉熵损失LiMTP：

其中d表示输入序列长度，ti表示第i个位置的ground-truth Token，P(ti)[ti]表示第i个MTP模块给出的ti的相应预测概率。最后，我们计算所有深度的MTP损失的平均值，并乘以一个权重因子ε，得到整体MTP损失LMTP，它作为DeepSeek-V3的额外训练目标：

推理中的MTP：

我们的MTP策略主要旨在提高主模型的性能，因此在推理过程中，我们可以直接丢弃MTP模块，主模型可以独立且正常地工作。此外，我们还可以将这些MTP模块重新用于推测性解码，以进一步改善生成延迟。

实验部分：

多benchmark的对比：

多token预测的消融实验：

消融研究的结果表明，MTP策略在大多数评估基准上一致地提升了模型性能。这证明了MTP目标不仅能够提高模型的数据效率，还能够增强模型对未来Token的预测能力，从而在各种任务中提高模型的整体性能。

无辅助损失负载平衡策略的消融实验：

我们在不同规模的两个基线模型上验证了这一策略。在小规模数据量上，我们训练了一个包含15.7B总参数的基线MoE模型，并在1.33T tokens上进行训练。在大规模数据量上，我们训练了一个包含228.7B总参数的基线MoE模型，并在578B tokens上进行训练。这两个基线模型纯粹使用辅助损失来鼓励负载平衡，并使用带有top-K亲和力归一化的sigmoid门控函数。它们控制辅助损失强度的超参数分别与DeepSeek-V2-Lite和DeepSeek-V2相同。在这两个基线模型的基础上，保持训练数据和其他架构不变，我们移除了所有辅助损失，并引入了无辅助损失平衡策略进行比较。从表格中我们可以观察到，无辅助损失策略在大多数评估基准上一致地实现了更好的模型性能。

声明：本文来自曾天真的算法世界，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于曾天真的算法世界；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

DeepSeek-V3 关键点解读：架构篇

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

整体优化：

模型设计：

架构部分：

Multi-Head Latent Attention (MLA)：

无辅助损失负载平衡的DeepSeekMoE：

互补序列级辅助损失：

节点限制路由：

无Token丢弃：

MTP训练目标：

推理中的MTP：

实验部分：

多benchmark的对比：

多token预测的消融实验：

中国家电企业“再出海”

特斯拉以低代码敏捷落地业务流程

人工智能资讯|Bright Data MCP 服务器发布，集成超过30种强大工具

中国消费品出海概况

中国信通院余晓晖：推动算力基础设施高质量发展

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

整体优化：

模型设计：

架构部分：

Multi-Head Latent Attention (MLA)：

无辅助损失负载平衡的DeepSeekMoE：

互补序列级辅助损失：

节点限制路由：

无Token丢弃：

MTP训练目标：

推理中的MTP：

实验部分：

多benchmark的对比：

多token预测的消融实验：

深度研究｜万字长文深层解读开源AI巅峰之作：DeepSeek-V3

关于DeepSeek的深度思考

相关推荐

联系我们

微信扫一扫关注我们