Deepseek技术原理和为人类的最大贡献-数智化转型网

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

deepseek去年三个大模型，就相当于gpt234，r1是突破。技术原理三个突破：amoe是混合专家模型，v3，670b参数，但训练每个专家单独训练，各司其职，降低算力消耗，只是低成本原因之一fp8混合精度，而不是fp16，一部分数据用8位，一部分用16位，成本下降第三，pipeline 思想，以前是一条训练，现在是等待时候并联的pipeline在训练，利用gpu冗余时间。推理成本下降更多，所以可以免费。r1比v3，最重要的贡献，是纯粹强化学习，没有监督式微调sft，实现了复杂问题的链式推理自由体，这是最伟大的贡献，类比alphago的自己跟自己学习，在多部推理上证明，所有大模型agi都可以走这条捷径。终极方向是ai自己学习，进化，顿悟，产生思想，deepseek证明了链式推理上，可行。证明了中国公司不是永远跟随，原产博士，可以原创。关于算力需求，未来大模型性能提升，比尔盖茨的软件性能提升迅速消化硬件成本下降，比如手机上算力成本未来跑几十亿参数模型，算力跟应用螺旋上升。国产卡，差在算子库集群能力，deepseek天然适配昇腾，自己写算子，以前只推理，现在能训练，国产卡重要性上升。应用空间打开，对推理需求上升。投资机会，产业逻辑上利好AI应用，toC（硬件，眼镜，玩具已半年），toB（软件要重视，结合智能体）

声明：本文涉及的个股分析及操作仅供交流，不构成任何投资建议！

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn