数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、DeepSeek公司及其大模型介绍
1.1 公司概况
DeepSeek于2023年7月在杭州成立,是幻方量化旗下子公司,全称为杭州深度求索人工智能基础技术研究有限公司。成立仅一年多,却已成为行业焦点。近期新闻热点不断,其推出的V3表现出色,可与OpenAI的4o媲美,训练成本不到600万美元,API定价仅是国内其他头部厂商的几十分之一 ,APP在中美APP store登上免费应用榜首。
从官网信息来看,DeepSeek近半年连续推出3个主要大模型版本,即DeepSeek V2.5、DeepSeek V3、DeepSeek-R1,均采用MOE架构。此前,还推出过DeepSeek-VL、DeepSeek Coder、DeepSeek Math。
1.2 模型能力
DeepSeek模型已对标国内Qwen、海外Llama、GPT 4o。从公布的榜单评测结果可知,DeepSeek-V3在开源模型中位居榜首,与世界最先进的闭源模型实力相当。
1.3训推成本
• 推理成本:API报价中,百万Token输入价格可达1元。
• 训练成本:DeepSeek使用2000张左右H800 GPU进行训练,根据技术报告,V3正式训练成本不超过600万美元。在预训练阶段,每万亿Token训练V3使用2048个H800 GPU集群,仅需180K个H800 GPU小时,约3.7天(180000÷2048÷24)。整个预训练总耗时2664K GPU小时(不到2个月) ,加上上下文扩展和后训练,总耗时约2788K GPU小时。按H800每小时2美元租赁计算,训练成本得以控制。如此低的推理和训练成本,引出诸多疑问,如模型采用何种网络架构、训练精度、框架和并行策略如何,模型部署和优化方案怎样,以及在硬件层计算和通信上做了哪些优化。
二、DeepSeek训推核心技术
2.1 DeepSeek-V3模型网络架构
DeepSeekV3整体预训练使用14.8万亿高质量Token,并在后期进行SFT和RL,模型参数量达671B,但每个Token仅激活37B参数。为实现高效推理和训练,DeepSeekV3自研MLA注意力机制和无辅助损失负载均衡策略的MoE架构。其采用经典Transformer架构,亮点在于前馈网络使用DeepSeekMoE架构,Attention机制使用MLA架构,这两种架构在DeepSeekV2模型中已得到验证。与DeepSeek-V2相比,V3额外引入无辅助损失的负载均衡策略,用于DeepSeekMoE,以减轻因保证Expert负载均衡导致的性能下降。
• DeepSeekMoE:GShard架构首次将MoE架构引入Transformer网络。与传统大模型架构相比,MoE架构在数据流转过程中集成专家网络层。传统MoE基本由Gating门控网络和稀疏MoE层两部分组成。稀疏MoE层代替传统Transformer模型中的前馈网络(FFN)层,包含若干“专家”(如8个) ,每个专家是独立神经网络,通常为前馈网络,也可是更复杂网络结构,甚至形成层级式MoE结构。门控网络用于决定Token发送到哪个专家,Token路由方式是MoE使用关键,路由器由学习参数组成,与网络其他部分一同预训练。
与传统MoE架构相比,DeepSeekMoE使用更细粒度专家,并隔离部分专家为共享专家,减少知识冗余。门控网络路由策略中,TopK表示第t个Token和所有路由专家计算出的亲和力分数中K个最高分数的集合,DeepSeekV3中用sigmoid函数计算亲和力分数,再对选择的亲和力分数归一化生成门控值。MoE模型训练时,不同专家因路由策略导致训练数据分布不均,业界通用解决方案是引入辅助损失,但过大辅助损失会损害模型性能。DeepSeek开创无辅助损失的负载均衡策略,为每个专家引入偏差项,添加到亲和力分数确定top-K路由。若专家过载,减少偏差项γ;若负载不足,增加偏差项γ,γ是偏差更新速度超参数。门控网络本质是softmax叠加分类网络,辅助loss通常是添加惩罚项,惩罚输出过大的logits,防止模型输出极端。
• MLA多头潜在注意力:大模型推理过程中,KV Cache机制常限制推理效率,标准Transformer架构的MHA架构产生大量KV Cache。为减少KV Cache,业界尝试多种方案,如PagedAttention、多查询注意力(MQA)和分组查询注意力(GQA),但性能较原生MHA有差距。DeepSeek-V2提出创新的多头潜在注意力(MLA)。与MQA的KV共用和GQA的KV分组不同,MLA核心是注意力键和值的低秩联合压缩,减少推理时键值(KV)缓存,性能优于MHA,所需KV缓存量少得多。低秩矩阵是秩远小于行数和列数的矩阵,可分解为两个较小矩阵乘积。如4×5矩阵A可由4×2矩阵B和2×5矩阵C乘积表示,表明A是低秩矩阵。低秩压缩计算核心过程涉及输入、投影矩阵等运算,将Token输入降维压缩得到缓存的KV压缩隐向量,再通过升维投影矩阵复原为原始KV矩阵。
2.2 训练推理核心技术
• 训练框架HAI-LLM:DeepSeek-V3在配备2048个NVIDIA H800 GPU的集群上训练,使用自研HAI-LLM框架。该框架实现四种并行训练方式:ZeRO支持的数据并行、流水线并行、张量切片模型并行和序列并行,可支持数万亿规模超大模型并扩展到数千个GPU。同时,自研高性能算子haiscale,极大优化大模型训练的显存效率和计算效率。
• 核心算法DualPipe-创新流水线并行算法:
• 通信计算重叠优化:DeepSeek-V3应用16路流水线并行(PP),跨越8个节点的64路专家并行(EP),以及ZeRO-1数据并行(DP)。与现有流水线并行方法相比,DualPipe流水线气泡更少,同时重叠前向和后向过程的计算和通信阶段,解决跨节点专家并行带来的沉重通信开销问题。DualPipe关键思想是重叠一对单独的前向和后向块中的计算和通信,将每个块划分为四个组件:注意力、all-all调度、MLP和all-all组合。例如有两个计算块A和B,块A进行前向传播计算时,可同时进行块B的后向传播通信过程;块A完成前向传播计算后,开始通信过程,块B开始前向传播计算。通过优化排列功能模块,精确调控GPU SM资源分配比例,系统可有效隐藏全节点通信和PP通信开销,即使是细粒度的all-all专家通信,all-all的通信开销也几乎为0。在深度学习大规模分布式训练中,通信速度常落后于计算速度,实现计算通信重叠是高效训练的关键。而采用流水线并行策略的大模型,不同层有依赖关系,会导致GPU闲置,产生流水线并行气泡问题。
• 跨节点全对全通信:DeepSeek定制高效的跨节点all-all通信内核(包括调度和组合)。跨节点GPU通过IB完全互连,节点内通信通过NVLink处理,每个Token最多调度到4个节点,减少IB通信量,同时使用warp专业化技术优化调度和组合。调度过程中,IB发送、IB到NVLink转发、NVLink接收分别由各自的warp处理,分配给每个通信任务的warp数根据实际工作负载动态调整。合并过程中,NVLink发送、NVLink到IB的转发和累积、IB接收和累积也由动态调整的warp处理。通过这种方式,IB和NVLink通信完全重叠,每个token能在不产生NVLink额外开销的情况下,在每个节点上平均高效选择3.2个专家。这意味着,虽然DeepSeek-V3实际只选择8个路由专家,但可扩展到最多13个专家(4个节点×3.2个专家/节点),同时保持相同通信成本。DSV3采用1个共享专家和256个路由专家的MoE架构,每个token会激活8个路由专家。
• 用于FP8训练的混合精度框架:并非全量参数FP8量化训练,多数计算密集型操作采用FP8,部分关键操作保留原始数据格式,以平衡训练效率和数值稳定性。大多数核心计算过程(GEMM运算)以FP8精度实现;涉及对低精度计算敏感的算子,仍需更高精度;一些低成本算子也可使用更高精度。Embedding模块、输出头、MoE门控模块、Normalization算子以及Attention算子保留原始精度(如BF16或FP32) 。为提高低精度训练精度,采用细粒度量化,对激活在token维度采用group-wise量化(1128),对权重采用128 128的block-wise量化;提高累加精度,在TensorCore上执行矩阵MMA(矩阵乘法累加)操作时,累加达到间隔时,部分结果传输到CUDA Cores上的FP32寄存器,进行FP32精度累加计算。
• MTP的训练目标:DeepSeekV3训练设置多Token预测目标,技术报告消融实验表明,该目标提高了模型在大多数评估基准上的性能,且MTP模块可用于推理加速。
• 推理部署方案:DeepSeek-V3参数量达671B,推理部署采用预填充(Prefilling)和解码(Decoding)分离策略,确保在线服务高吞吐量和低延迟。通过冗余专家部署和动态路由策略,模型推理时保持高效负载均衡,采用跨机分布式推理。
• Prefill阶段:并行处理用户Prompt,转为KV Cache。最小部署单元由4个节点组成,每个节点配备32个GPU。注意力部分采用4路张量并行(TP4)和序列并行(SP),结合8路数据并行(DP8),较小的TP规模(4路)限制了TP通信开销。MoE部分使用32路专家并行(EP32)。
• Decoder阶段:进行自回归的每个Token输出。最小部署单元由40个节点和320个GPU组成。注意力部分采用TP4和SP,结合DP80,MoE部分使用EP320。MoE部分每个GPU只承载一个专家,64个GPU负责承载冗余专家和共享专家。
三、为什么DeepSeekV3训练成本低
训练成本主要由模型架构和训练架构决定,两者相辅相成。DeepSeekV3训练成本低的原因如下:
• MLA机制:通过对KV做联合低秩压缩大幅减少KV Cache,相比业界从KV数量角度减少KV Cache,MLA的压缩实现更考验研究团队能力。
• FP8训练:通过低精度计算减少GPU内存使用和计算开销,技术报告显示FP8混合精度训练框架首次在极大规模模型上验证有效性,体现DeepSeek的Infra工程团队实力。
• MoE架构:通过MoE稀疏激活机制大幅减少计算量,相比Qwen和Llama的Dense架构,在训推上有先天优势,当然也给Infra工程团队带来专家负载、通信、路由等难题。
四、为什么是DeepSeek
在硅谷,类似DeepSeek的AI创新并不罕见,但这次是中国公司取得突破,与传统的“美国创新、中国应用”模式不同,令人振奋。从近期访谈和技术报告可看出:
• 大模型是知识密集型产业,DeepSeek成功组织起高密度人才。
• 大模型技术注重基本功和驱动力,而非依赖魔法。
• DeepSeek不以商业化为第一要义,能够轻装上阵开展研究。
五、一些个人思考
• 长远来看,未来可能出现专门适配Transformer架构的芯片,就像为卷积设计的ASIC芯片。
• 多Token预测、MoE架构可能在很长一段时间内都是大模型训推架构的热门研究方向。
• 在国内,AI应用比基础研究更有市场和话语权,但基础创新与海外的代际差距会逐渐缩小。
• 大模型训练和推理中,软硬件是协同生态,DeepSeek的出现将促进AI全行业更快速、低成本地迭代。
• 由于时间仓促,很多技术细节值得深入学习研究,若有错误,还望海涵。
参考资料:
1. Better & Faster Large Language Models via Multi-token Prediction
2. https://kexue.fm/archives/10091
3. https://arxiv.org/pdf/2404.19737v1
4. https://arxiv.org/pdf/2412.19437
5. https://arxiv.org/pdf/2405.04434
6.https://www.zhihu.com/question/8423473404
7. https://arxiv.org/pdf/1811.06965
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
