DeepSeek R1背后的关键技术

数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

DeepSeek R1 背后有三个关键理念:

  • 思维链(Chain of Thought):让模型自己解释自己。
  • 强化学习(Reinforcement Learning):让模型自我训练。
  • 蒸馏(Distillation):在不损失能力的情况下缩小模型。

一、思维链

如果你向大多数人工智能模型提出一个棘手的问题,它们会给出一个答案,但不会给出背后的推理。这是一个问题。如果答案是错的,你就不知道它在哪里出了差错。

思维链可以解决这个问题。模型不会直接给出答案,而是一步步解释其推理过程。如果它犯了错误,你可以清楚地看到错误所在。更重要的是,模型本身也能看到错误所在。

这不仅仅是一个调试工具。它改变了模型的思维方式。解释的行为迫使他们放慢脚步,检查自己的工作。即使没有额外的训练,也能得到更好的答案。

DeepSeek 的论文展示了一个数学问题的例子。模型在解题过程中发现自己犯了一个错误,然后自我纠正。这很新颖。大多数人工智能模型都不会这样做。它们要么做对,要么做错,然后继续前进。

二、强化学习

大多数人工智能训练都像上学一样:向模型展示一个问题,给出正确答案,然后重复。DeepSeek 采用了不同的方法。它的学习方式更像婴儿。

婴儿不会接受指令。它们会尝试、失败、调整、再尝试。随着时间的推移,它们会变得更好。这就是强化学习的原理。模型会探索不同的方法来回答问题,然后选出最有效的一种。

机器人就是这样学会走路的。自动驾驶汽车也是这样学习导航的。现在,DeepSeek 也是这样改进推理的。关键的思路是组相对策略优化(GRPO)。GRPO 不会简单地将答案分为对错,而是将其与过去的尝试进行比较。如果新答案比旧答案更好,模型就会更新其行为。

这使得学习成本更低。模型不需要大量标注数据,而是通过迭代自己的错误来训练自己。这就是为什么 DeepSeek R1 会随着时间的推移而不断改进,而 OpenAI 的 01 模型却一成不变的原因。如果有足够的训练,它甚至可以在推理任务中达到人类水平的准确性。

三、蒸馏

DeepSeek 这样的模型有一个问题:它们太大了。

完整版有 6710 亿个参数。运行它需要数千个 GPU 和只有科技巨头才能负担得起的基础设施。这对大多数人来说都是不切实际的。

解决方案就是蒸馏–在不损失太多性能的情况下,将一个巨大的模型压缩成一个较小的模型。就像教徒弟一样。大模型生成示例,小模型从中学习。

DeepSeek 研究人员将他们的模型提炼成了 Llama 3 和 Qwen。令人惊讶的是什么?小模型有时比原始模型表现得更好。这使得AI变得更容易获得。你不再需要超级计算机,只需单个GPU就能运行强大的模型。

GRPO RL 框架

传统上,用于训练 LLM 的 RL 在与标注数据相结合时最为成功(例如 PPO RL 框架)。这种 RL 方法采用了一个批评者模型,它就像一个 “LLM 教练”,对每次移动提供反馈,帮助模型改进。它根据标注数据评估 LLM 的行动,评估模型成功的可能性(价值函数),并指导模型的整体策略。但是,这种方法受到用于评估决策的标注数据的限制。如果标注的数据不完整、有偏差,或者没有涵盖全部任务,那么批评者只能在这些限制条件下提供反馈,而且不能很好地推广。

GRPO RL 框架:作者使用了组相对策略优化(GRPO)RL 框架,它消除了批评者模型。有了 GRPO,你就跳过了 “教练”–通过使用预定义的规则(如连贯性和/或流畅性),在多轮比赛中对 LLM 移动进行评分。这些模型通过将这些分数与小组平均分进行比较来学习。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/76817.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部