数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

整体优化:
与传统的效率优先不同,Deepseek系列更看重“成本”与“效率“的平衡。
如上表所示,在预训练阶段,训练DeepSeek-V3每万亿tokens仅需要180K H800 GPU小时,即在我们的2048个H800 GPU集群上3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗时2664K GPU小时。加上119K GPU小时用于上下文长度扩展和5K GPU小时用于后训练,DeepSeek-V3的完整训练仅需要2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。
模型设计:
架构部分:
DeepSeek-V3继续采用(1)Multi-head Latent Attention(MLA)以实现高效的推理,以及(2)DeepSeekMoE 以实现成本效益的训练,这两种架构在DeepSeek-V2中已经得到了验证。
Multi-Head Latent Attention (MLA):
MLA的核心在于通过低秩联合压缩来减少注意力键(keys)和值(values)在推理过程中的缓存,从而提高推理效率:
对于Query,也执行相似的操作:
最终的注意力输出 ut 是通过将Query qt 与Key kt 进行softmax归一化后的点积,再乘以值 vt 来获得:
无辅助损失负载平衡的DeepSeekMoE:
在混合专家(MoE)模型中,专家负载的不平衡会导致路由崩溃或增加计算开销。传统的方法通常采用辅助损失来鼓励负载平衡,但过大的辅助损失会引入不可忽视的干扰梯度,从而损害模型性能。为了避免在训练过程中产生不良梯度,我们提出了一种无辅助损失的负载平衡策略(Loss-Free Balancing),通过动态调整每个专家的偏差来控制负载平衡,而不引入干扰梯度。
首先我们回顾一下DeepSeekMoE的基本流程:
针对专家负载不均衡的问题,我们为每个专家引入了一个偏置项 bi,并将其加到的亲和力得分 si,t 上:
需要注意的是,偏置项仅用于路由。与FFN输出相乘的门控值仍然来源于原始得分 s_{i,t} 。在训练过程中,我们持续监控每个训练步骤中整个批次的专家负载。在每个步骤的末尾,如果相应的专家过载,我们将减少偏置项 𝛾;如果相应的专家欠载,我们将增加偏置项 𝛾,其中 𝛾是一个称为偏置更新速度的超参数。通过动态调整,DeepSeek-V3 在训练期间保持专家负载平衡,并比通过纯辅助损失鼓励负载平衡的模型实现了更好的性能。
互补序列级辅助损失:
为了防止任何单个序列内的极端不平衡,我们还采用了互补的序列级辅助损失。这种损失鼓励每个序列中的专家负载保持平衡。
节点限制路由:
像DeepSeek-V2使用的设备限制路由一样,DeepSeek-V3也采用了一种受限的路由机制来限制训练过程中的通信成本。简而言之,我们确保每个token最多被发送到M个节点,这些节点是根据每个节点上分布的专家的最高Tr个亲和分数之和来选择的。
无Token丢弃:
由于有效的负载平衡策略,DeepSeek-V3在完整的训练过程中保持了良好的负载平衡。因此,在训练期间,DeepSeek-V3不会丢弃任何token。此外,我们还实施了特定的部署策略以确保推理时的负载平衡,所以DeepSeek-V3在推理期间也不会丢弃token。
多Token预测(Multi-Token Prediction/MTP):
具体来说,我们的Multi-Token Prediction / MTP实现使用K个顺序模块来预测K个额外的Token。第i个MTP模块包括一个共享的特征层Emb(·),一个共享的输出头OutHead(·),一个Transformer块TRMi(·),以及一个投影矩阵Wi∈Rd×2d。对于第i个输入Tokenti,在第i个预测深度,我们首先结合第(i-1)深度的第i个Token的表示hi-1∈Rd和第(i+1)个Token的嵌入d(ti+1)∈Rd,通过线性投影:
需要注意的是,对于每个MTP模块,其嵌入层与主模型共享。结合后的h’i作为第i深度的Transformer块的输入,产生当前深度的输出表示hi:
其中d表示输入序列长度,i:表示切片操作(包括左右边界)。最后,以hi为输入,共享的输出头将计算第i个额外预测Token的概率分布:
输出头OutHead(·)将表示线性映射到logits,然后应用Softmax(·)函数计算第i个额外Token的预测概率。同时,对于每个MTP模块,其输出头与主模型共享。
MTP训练目标:
我们计算一个交叉熵损失LiMTP:
其中d表示输入序列长度,ti表示第i个位置的ground-truth Token,P(ti)[ti]表示第i个MTP模块给出的ti的相应预测概率。最后,我们计算所有深度的MTP损失的平均值,并乘以一个权重因子ε,得到整体MTP损失LMTP,它作为DeepSeek-V3的额外训练目标:
推理中的MTP:
我们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,我们可以直接丢弃MTP模块,主模型可以独立且正常地工作。此外,我们还可以将这些MTP模块重新用于推测性解码,以进一步改善生成延迟。
实验部分:
多benchmark的对比:
多token预测的消融实验:
消融研究的结果表明,MTP策略在大多数评估基准上一致地提升了模型性能。这证明了MTP目标不仅能够提高模型的数据效率,还能够增强模型对未来Token的预测能力,从而在各种任务中提高模型的整体性能。
无辅助损失负载平衡策略的消融实验:
我们在不同规模的两个基线模型上验证了这一策略。在小规模数据量上,我们训练了一个包含15.7B总参数的基线MoE模型,并在1.33T tokens上进行训练。在大规模数据量上,我们训练了一个包含228.7B总参数的基线MoE模型,并在578B tokens上进行训练。这两个基线模型纯粹使用辅助损失来鼓励负载平衡,并使用带有top-K亲和力归一化的sigmoid门控函数。它们控制辅助损失强度的超参数分别与DeepSeek-V2-Lite和DeepSeek-V2相同。在这两个基线模型的基础上,保持训练数据和其他架构不变,我们移除了所有辅助损失,并引入了无辅助损失平衡策略进行比较。从表格中我们可以观察到,无辅助损失策略在大多数评估基准上一致地实现了更好的模型性能。
声明:本文来自曾天真的算法世界,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于曾天真的算法世界;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
