数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、Moe 路由的All2All优化设计:网络拓扑优化与资源分配优化
1、基本概念
在MoE大模型训练中,需要将训练数据按照数据类型或特征分配给最合适的专家模型进行处理,此时常用到两种数据路由方案,一种是All to All通信方案,另一种是基于 Magetron 实现的All Reduce和Reduce Scatter通信方案,其优缺点大致如下:
a)All to All通信:在数据传输时,根据实际传输的数据量来开辟相应大小的显存空间;这种方案的优势是显存开销小,劣势是由于是点对点通信、通信效率相对较低。
b)All Reduce和Reduce Scatter通信:这种方案首先是将所有数据路由至每一张GPU,然后通过掩码筛选出每个专家模型真正需要的数据,再进行求和、求最大值等规约操作,并将数据重新合理分配至每一张GPU;这种方案的优势是通信效率较高,劣势是显存开销比较大。
2、实现方案
在 DeepSeek-V3 的实际训练中,选择了All to All的通信方案,为了解决All to All在通信效率方面存在的劣势,采用了众多通信优化手段,比较核心的有以下几个方面。
a)限制路由范围:限制每个训练 token 最多只能被调度到 4 台GPU服务器,减少跨节点间的 IB 流量,规避了节点过多时训练 Token 随意路由导致的通信拥塞问题。
b)网络拓扑优化:DeepSeek-V3 的训练集群应该采用了多轨组网方案(其并未正式公布,从其他渠道了解信息猜测得到),确保服务器收发数据时,可以在不同节点的同号卡之间实现最少跳数的互联,所以在数据路由策略上,DeepSeek-V3 会通过IB网络将数据从源端服务器传输至目标服务器相同卡号的GPU上,然后基于 NVLink 转发至托管目标专家的特定GPU,实现高效机内和机间通信,最大化利用高速互联网络带宽。
c)资源分配优化:当期望训练流与通信流同时工作并达到重叠状态时(如二.2所述),就容易出现GPU SM资源(SM即流多处理器,H800有132个SM)的争抢,DeepSeek-V3 通过使用定制化的 PTX(即网络上宣称绕过CUDA的语言),对GPU的132个SM进行了改造,专门划分出20个SM用于处理服务器间通信任务,并根据训练流和通信流的具体特点和需求,对指令执行进行优化,例如分配指令优先级、调整指令执行顺序等,减少 SM 资源分配和 L2 缓存抢占现象的发生。
d)动态资源调整:DeepSeek-V3 采用了自动调整的资源分配策略,能够根据训练流和通信流在不同时刻的资源需求动态地分配 SM 和 L2 缓存资源,系统能够通过为每个专家引入的偏置项,根据每个专家的历史利用率情况,动态地调整其接收新任务的概率,即无辅助损失负载均衡策略。
声明:本文来自Zero417,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于Zero417;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
