数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

文章主要介绍了 DeepSeek–V3 模型,其以较低成本和短时间达到了与顶尖模型比肩的性能,引发了广泛关注和讨论。重要亮点
- 低成本训练:DeepSeek-V3 以 557.6 万美元预算,在 2048 个 H800 GPU 集群上仅用 3.7 天 / 万亿 tokens 的训练时间,每万亿 tokens 仅需 180K 个 H800 GPU 小时,总计 278 万 GPU 小时的训练成本,远低于其他模型。采用压缩、并行和提升硬件使用效率等方法,包括 MLA 多层注意力架构、FP8 混合精度训练框架以及 DualPipe 跨节点通信优化等创新技术。
- 压缩技术:一是 MLA 多层注意力架构,通过动态合并相邻层特征、对 Key/Value 和 Query 进行低秩压缩,减少内存占用和计算量,使训练内存占用减少 20 – 30%,提升训练效率;二是 FP8 混合精度训练框架,采用“混合精度”方案,大部分计算内核采用 FP8 精度,某些敏感算子保留 FP16 乃至 FP32 精度,同时解决了 FP8 误差累计问题,使模型训练速度大幅提升,显存使用减少,精度损失小于 0.25%。
- 并行技术:采用专家并行训练技术,创新 DualPipe 跨节点通信优化方法,减少计算气泡和通信开销,提高算力使用效能;采用无辅助损失的负载均衡策略,实现自然均衡,提高训练效率;进行底层通信优化,确保数据传输。
- 性能秘密:总参数量大,在数据处理上精益求精,采用多元化数据获取策略、严格的数据清洗流程和先进的数据处理方法;引入多 token 预测(MTP)技术,提高训练效率和模型性能;对 R1 进行蒸馏使用,强化模型能力但也导致偏科。
- 价值与争议:DeepSeek-V3 引发外网赞许和怀疑,虽被指缺乏真正创新,但在工程并行技术上有很多创新,展示了在工程实现和理论创新之间找到平衡点的新可能性,为 AI 落地提供了新方向。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导
