省钱也是技术活：解密 DeepSeek 的压榨术-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

文章主要介绍了 DeepSeek–V3 模型，其以较低成本和短时间达到了与顶尖模型比肩的性能，引发了广泛关注和讨论。重要亮点

低成本训练：DeepSeek-V3 以 557.6 万美元预算，在 2048 个 H800 GPU 集群上仅用 3.7 天 / 万亿 tokens 的训练时间，每万亿 tokens 仅需 180K 个 H800 GPU 小时，总计 278 万 GPU 小时的训练成本，远低于其他模型。采用压缩、并行和提升硬件使用效率等方法，包括 MLA 多层注意力架构、FP8 混合精度训练框架以及 DualPipe 跨节点通信优化等创新技术。
压缩技术：一是 MLA 多层注意力架构，通过动态合并相邻层特征、对 Key/Value 和 Query 进行低秩压缩，减少内存占用和计算量，使训练内存占用减少 20 – 30%，提升训练效率；二是 FP8 混合精度训练框架，采用“混合精度”方案，大部分计算内核采用 FP8 精度，某些敏感算子保留 FP16 乃至 FP32 精度，同时解决了 FP8 误差累计问题，使模型训练速度大幅提升，显存使用减少，精度损失小于 0.25%。
并行技术：采用专家并行训练技术，创新 DualPipe 跨节点通信优化方法，减少计算气泡和通信开销，提高算力使用效能；采用无辅助损失的负载均衡策略，实现自然均衡，提高训练效率；进行底层通信优化，确保数据传输。
性能秘密：总参数量大，在数据处理上精益求精，采用多元化数据获取策略、严格的数据清洗流程和先进的数据处理方法；引入多 token 预测（MTP）技术，提高训练效率和模型性能；对 R1 进行蒸馏使用，强化模型能力但也导致偏科。
价值与争议：DeepSeek-V3 引发外网赞许和怀疑，虽被指缺乏真正创新，但在工程并行技术上有很多创新，展示了在工程实现和理论创新之间找到平衡点的新可能性，为 AI 落地提供了新方向。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导

省钱也是技术活：解密 DeepSeek 的压榨术

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

加快推进东莞与珠三角地区产业经济一体化——以纲要为指引，推进产业资源融合

关于组织开展2022年宁波市重点首版次软件申报工作的通知

一组数据为你全面展现：数字经济时代如何推进中国工业现代化？

继往开来，引领创新，无线电重点工作推进专题会召开

灯塔智造专题|中海油能源物流有限公司：海洋石油勘探开发后勤保障基地数字化应用场景建设

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

一场关于 DeepSeek 的高质量闭门会：比技术更重要的是愿景

围绕 DeepSeek 的谣言实在太多了

相关推荐

联系我们

微信扫一扫关注我们