数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

近日来,DeepSeek相关模型推出后引发巨大关注,其技术创新、高性价比、开源生态等,将对AI行业产生深远影响。本文从AI三要素——算力、算法、数据以及AI应用视角对DeepSeek的影响进行梳理。
一、DeepSeek技术创新之处
DeepSeek在技术路径、算法创新方面取得了显著成果,DeepSeek模型有很多独创的技术,也有很多技术是基于业界已有的技术探索,而DeepSeek的最大创新之处在于——很好地将这些原创的和已有的技术整合起来,实现了一种性能与成本更加平衡的改进。以下是对DeepSeek所涉及核心技术的通俗介绍。
MoE(混合专家模式)通俗的理解是:可以先对用户的问题拆解、分类,再由各司其职的“专家”进行解答,而不需要所有“专家”“集体会诊”。由此极大地降低了算力要求。该技术并非DeepSeek独创,OpenAI的GPT4也采用了这种模式。
多头潜注意力机制(MLA)通俗地理解是:可以自动提取关键信息,减少对无效信息的处理。由此提高推理速度,大幅降低推理成本。该技术为DeepSeek团队独创,并实现了该技术与MoE的组合应用。
以往大模型开发流程,需要先通过海量标注数据进行监督微调(SFT),让模型具备基础能力,之后再进行强化学习(RL)。DeepSeek大幅减少了监督微调(SFT),其R1-Zero版本无需任何监督微调,其R1版本有少量监督微调。DeepSeek通过大规模强化学习(RL)方法,让大模型可以通过自我推理持续进化。通俗理解即以往是“老师先教学生大量知识,在学生具备基础能力后,再进行考试测评”,而DeepSeek是“直接考试测评,通过解答的对与错,让学生自行理解知识结构”。这一新的技术路径相当于开辟了新的研究方向。
蒸馏(Distilling)是指可以通过知识蒸馏的方式,将大模型的高级能力有效地转移到更小的模型中。通俗理解是将“特级专家的能力转移到一般专家上”,这将加速AI技术的实际应用。
DeepSeek独创的上下文硬盘缓存技术通俗理解是,用户在使用模型时,有很大比例的内容是重复的,DeepSeek可以将重复的内容从缓存读取,无需计算,从而大幅降低成本和计算时间。除此以外,DeepSeek还有FP8混合精度训练、语言一致性奖励、四阶段训练流程等多项技术创新。
二、DeepSeek对算力的影响
DeepSeek通过各种技术手段,以远低于GPT的训练成本实现了相近的性能。DeepSeek在V3模型技术报告中提到其训练成本558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本。有机构认为其实际成本更大,但无论如何,DeepSeek-V3模型的净算力成本约558万美元,相比于业界领先的OpenAI GPT-4o模型,已十分高效。此外,DeepSeek的低成本是“站在巨人的肩膀上”,AI探索者的前期成就降低了DeepSeek所需的算力。
算力可分为“训练算力”(training)和“推理算力”(reasoning),训练算力是指在模型训练过程中消耗的算力;推理算力是指模型开发完成后,用户使用所消耗的算力。在训练阶段,需要高性能算力和海量数据支持,因此,对高性能GPU等硬件要求高,初始投资大。但一旦模型训练完成,后续的推理过程则可以在资源要求较低的环境中运行,因此,推理阶段对算力要求相对较低。以往AI算力需求主要的增长动力仍来自训练,模型厂商算力成本中训练端占比七成左右。DeepSeek引领行业从“训练主导”模式逐步转向“推理主导”模式,算力需求结构可能将会改变。
在训练算力方面,DeepSeek表明算法优化及架构创新能大幅削减训练环节的算力需求。各模型厂商将融合DeepSeek公开的一系列训练优化方法,提高对模型的训练效率。但预计这些模型厂商大概率仍将维持算力投入,尤其是全球领先的模型厂商,致力于训练出性能更强大的模型。因此,从短期看,DeepSeek的出现对训练算力需求构成利空。高盛分析师测算,若DeepSeek模式普及,全球AI基础设施投资需求可能缩减40%~60%,星际之门这类超级项目的经济合理性将遭遇根本性质疑。但从长期看,庞大的训练集群将仍然被产业所追逐。
在推理算力方面,DeepSeek开源模型和更低的推理成本将真正促进AI应用百花齐放。根据杰文斯悖论(知名的经济学理论),当技术的进步导致某种资源的使用更加高效时,消费者或企业对它的使用需求可能会大幅增加,虽然其使用成本降低了,但总消耗最终反而会上升。这样的情况在当前的蒸汽机时代和内燃机时代都曾出现过。因此,AI应用的广阔需求有望被激发,推理算力将具备更大的增长空间。
DeepSeek的技术路径降低了对先进算力的依赖,对AI芯片行业的格局产生一定影响。国产算力厂商将通过高性价比和服务响应速度,在多元化算力市场中占据更大份额。DeepSeek的出现将令AI产业链价值重心从算力前端向后端应用平移。
三、DeepSeek对算法的影响
多位AI行业专家表示,DeepSeek并没有改变行业规律,而是采用了“更聪明”的算法和架构,未来AI领域将更加注重算法与算力的协同创新。
DeepSeek开源策略将改变AI算法模型行业格局。OpenAI ChatGPT等国内外性能领先的大模型是闭源的,以往的开源模型总体性能欠佳,而DeepSeek将其模型完整开源,可以使用户以极低的成本享受与闭源大模型相近的性能。此外,DeepSeek-R1采用MIT许可协议,即用户可以无限制地使用、修改、分发和商业化该模型,而以往的知名开源模型虽然允许二次开发和商用,但存在限制条件。
DeepSeek打破了以往大型语言模型被少数公司垄断的局面,大幅降低了模型门槛,让更多企业可以开发出自身特定领域的模型,这无疑将加速AI领域的发展。可以预见,各模型厂商大概率将借鉴DeepSeek公开的一系列优化方法,但大模型厂商的淘汰也将加速。在马太效应定律下,通用大模型市场或将呈现“巨头通吃”的格局。
DeepSeek选择开源模型,将加速全球开源生态繁荣,也削弱了闭源模型的技术壁垒。但闭源模型的优势或价值在于专有数据与定制化训练、特定垂直领域的深度布局。预计开源与闭源路线会形成融合,开源模型将主导通用能力与长尾市场,而闭源模型将聚焦高价值垂直领域。
四、DeepSeek对数据的影响
在人工智能算法模型开发流程中,设计、训练、评测、仿真、迭代全生命周期中都需要结构化数据的输入作为支撑。
人工智能算法模型开发流程
来源:德勤
数据的质量和体量被认为决定了人工智能算法模型的优异性。以往的模型在提升推理能力时,通常依赖于SFT作为预训练步骤,因此产生对大规模数据的需求。DeepSeek模型表明,数据作为AI化石燃料的作用是有限的,在无监督或弱监督前提下,可以通过强化学习(RL)提升AI模型推理进化,而这一方法对标注数据的需求大幅降低。基于此,本文认为,一是将加速那些难以获取大量高质量标注数据领域的AI应用;二是AI领域对数据体量的要求可能降低,对数据质量的要求可能提升;三是随着AI应用的加速,对垂直应用场景的高质量数据需求将快速增长。
五、DeepSeek对应用的影响
此前AI应用的普及及其商业化存在一定的困难,一方面在于模型性能仍然没法满足众多场景的需求,尤其是在推理能力和多模态环节;另一方面则是闭源模型性能领先但API调用的成本过高,影响了AI应用的大范围普及。
DeepSeek极大降低了AI大模型部署的技术门槛与成本,将加速AI的商业化进程。随之而来的是,AI赋能千行百业的未来提前到来。
DeepSeek采取全面开源策略,开发者可以针对不同场景及需求,进行本地化开发和定制化应用。基于DeepSeek模型,用户可以私有化部署,以便更好地控制自有的数据和资源,尤其适用于金融、医疗等需要高度定制化或对数据隐私有严格要求的场景。
DeepSeek通过知识蒸馏技术的突破,成功实现了大模型推理能力向小模型的传递,可使小模型在保持较低算力消耗的同时,实现接近大型模型的推理性能,解决小模型在资源受限情况下的性能瓶颈问题,为实时应用和边缘计算等场景中的模型部署提供了可能,进一步推动了AI模型端到端的商业化落地。
正如1930年毛泽东在《星星之火可以燎原》中写到的,“它是站在海岸遥望海中已经看得见桅杆尖头了的一只航船,它是立于高山之巅远看东方已见光芒四射喷薄欲出的一轮朝日,它是躁动于母腹中的快要成熟了的一个婴儿。”AI应用正在加速到来。
撰写|产业研究员 郭志团
编辑|王斯欣
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
