数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

本文围绕神秘的 AI 模型 DeepSeek 展开,内容涵盖其技术特点、组织模式、与其他模型的对比、对行业的影响等多个方面。文章还探讨了 AI 技术的发展趋势,如 2025 年技术的分化、开源与闭源之争等问题,并分析了 DeepSeek 对二级市场的影响。
重要亮点
- DeepSeek 的技术特点:DeepSeek 在技术上有诸多特点,如在推理层面可能不需要做 SFT(有监督微调),但在其他任务中可能仍需 SFT;其 R1 本质是 SFT 训练出来的,数据用 RLHF 训练出来的模型生成;其长上下文能力提升快,用常规方法就能做到 Long context 10K;在数据标注上非常重视,这是模型效率好的关键之一;在蒸馏技术上有优势也有隐患,如模型 diversity 下降等;在 Process Reward 方面,过程监督上限是人,结果监督才是模型上限。
- DeepSeek 的组织文化:创始人兼 CEO 梁文锋是 DeepSeek 核心的人,团队的 research 能力和团队文化很好。DeepSeek 把所有精力放在一个很窄的点,比如智能本身,不在乎形态,往 AGI 走。DeepSeek 的组织模式类似字节,文化好,商业模式好,核心是文化组织。对于人才组合,磨合好也能能力变高级,挖走一个人对其影响可能不大。
- AI 技术发展趋势:2025 年模型会发生分化,可能有新的架构出现,RL 的潜力还未完全发挥,多模态可能出现挑战 ChatGPT 形态的产品。此外,除了 Transformer 外可能会有别的架构探索,降低成本的同时探索智能边界。目前大家关心 agent,但还未大规模应用。
- 开源与闭源之争:DeepSeek 的开源引发关注,开源和闭源路线并不矛盾,但如果开源能做到闭源的 95% 或能力差不多,对闭源是挑战。有可能导致 OpenAI 等把好的模型藏在后面,但 DeepSeek 拿出来后其他公司好的模型可能藏不住了。目前是共存状态,高校和小 lab 可能优先选择 DeepSeek,云厂商对开源闭源都支持。
- DeepSeek 的影响:DeepSeek 的出圈让外界意识到 AI 很强,缩小了中美 AI 差距。其证明了作为追赶者可以发挥工程能力优势,未来中美 AI 格局可能取决于大模型团队如何用较少算力做出成果。DeepSeek 对美国 AI 圈冲击大,短期对股价有影响,但长期叙事会继续。
- 技术与愿景的关系:不同 AI labs 的模型核心差别在于愿景而非技术,比技术更重要的是愿景。例如 AI labs 之间的差距在于谁能提出下一个 reasoning,无限长度的 reasoning 可能是一个愿景。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导
