数智化转型网szhzxw.cn 数字化转型网专题栏目 省钱也是技术活:解密 DeepSeek 的压榨术

省钱也是技术活:解密 DeepSeek 的压榨术

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

文章主要介绍了 DeepSeek–V3 模型,其以较低成本和短时间达到了与顶尖模型比肩的性能,引发了广泛关注和讨论。重要亮点

  • 低成本训练:DeepSeek-V3 以 557.6 万美元预算,在 2048 个 H800 GPU 集群上仅用 3.7 天 / 万亿 tokens 的训练时间,每万亿 tokens 仅需 180K 个 H800 GPU 小时,总计 278 万 GPU 小时的训练成本,远低于其他模型。采用压缩、并行和提升硬件使用效率等方法,包括 MLA 多层注意力架构、FP8 混合精度训练框架以及 DualPipe 跨节点通信优化等创新技术。
  • 压缩技术:一是 MLA 多层注意力架构,通过动态合并相邻层特征、对 Key/Value 和 Query 进行低秩压缩,减少内存占用和计算量,使训练内存占用减少 20 – 30%,提升训练效率;二是 FP8 混合精度训练框架,采用“混合精度”方案,大部分计算内核采用 FP8 精度,某些敏感算子保留 FP16 乃至 FP32 精度,同时解决了 FP8 误差累计问题,使模型训练速度大幅提升,显存使用减少,精度损失小于 0.25%。
  • 并行技术:采用专家并行训练技术,创新 DualPipe 跨节点通信优化方法,减少计算气泡和通信开销,提高算力使用效能;采用无辅助损失的负载均衡策略,实现自然均衡,提高训练效率;进行底层通信优化,确保数据传输。
  • 性能秘密:总参数量大,在数据处理上精益求精,采用多元化数据获取策略、严格的数据清洗流程和先进的数据处理方法;引入多 token 预测(MTP)技术,提高训练效率和模型性能;对 R1 进行蒸馏使用,强化模型能力但也导致偏科。
  • 价值与争议:DeepSeek-V3 引发外网赞许和怀疑,虽被指缺乏真正创新,但在工程并行技术上有很多创新,展示了在工程实现和理论创新之间找到平衡点的新可能性,为 AI 落地提供了新方向。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/76959.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部