DeepSeek R1背后的关键技术-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

DeepSeek R1 背后有三个关键理念：

思维链（Chain of Thought）：让模型自己解释自己。
强化学习（Reinforcement Learning）：让模型自我训练。
蒸馏（Distillation）：在不损失能力的情况下缩小模型。

一、思维链

如果你向大多数人工智能模型提出一个棘手的问题，它们会给出一个答案，但不会给出背后的推理。这是一个问题。如果答案是错的，你就不知道它在哪里出了差错。

思维链可以解决这个问题。模型不会直接给出答案，而是一步步解释其推理过程。如果它犯了错误，你可以清楚地看到错误所在。更重要的是，模型本身也能看到错误所在。

这不仅仅是一个调试工具。它改变了模型的思维方式。解释的行为迫使他们放慢脚步，检查自己的工作。即使没有额外的训练，也能得到更好的答案。

DeepSeek 的论文展示了一个数学问题的例子。模型在解题过程中发现自己犯了一个错误，然后自我纠正。这很新颖。大多数人工智能模型都不会这样做。它们要么做对，要么做错，然后继续前进。

二、强化学习

大多数人工智能训练都像上学一样：向模型展示一个问题，给出正确答案，然后重复。DeepSeek 采用了不同的方法。它的学习方式更像婴儿。

婴儿不会接受指令。它们会尝试、失败、调整、再尝试。随着时间的推移，它们会变得更好。这就是强化学习的原理。模型会探索不同的方法来回答问题，然后选出最有效的一种。

机器人就是这样学会走路的。自动驾驶汽车也是这样学习导航的。现在，DeepSeek 也是这样改进推理的。关键的思路是组相对策略优化（GRPO）。GRPO 不会简单地将答案分为对错，而是将其与过去的尝试进行比较。如果新答案比旧答案更好，模型就会更新其行为。

这使得学习成本更低。模型不需要大量标注数据，而是通过迭代自己的错误来训练自己。这就是为什么 DeepSeek R1 会随着时间的推移而不断改进，而 OpenAI 的 01 模型却一成不变的原因。如果有足够的训练，它甚至可以在推理任务中达到人类水平的准确性。

三、蒸馏

DeepSeek 这样的模型有一个问题：它们太大了。

完整版有 6710 亿个参数。运行它需要数千个 GPU 和只有科技巨头才能负担得起的基础设施。这对大多数人来说都是不切实际的。

解决方案就是蒸馏–在不损失太多性能的情况下，将一个巨大的模型压缩成一个较小的模型。就像教徒弟一样。大模型生成示例，小模型从中学习。

DeepSeek 研究人员将他们的模型提炼成了 Llama 3 和 Qwen。令人惊讶的是什么？小模型有时比原始模型表现得更好。这使得AI变得更容易获得。你不再需要超级计算机，只需单个GPU就能运行强大的模型。

GRPO RL 框架

传统上，用于训练 LLM 的 RL 在与标注数据相结合时最为成功（例如 PPO RL 框架）。这种 RL 方法采用了一个批评者模型，它就像一个 “LLM 教练”，对每次移动提供反馈，帮助模型改进。它根据标注数据评估 LLM 的行动，评估模型成功的可能性（价值函数），并指导模型的整体策略。但是，这种方法受到用于评估决策的标注数据的限制。如果标注的数据不完整、有偏差，或者没有涵盖全部任务，那么批评者只能在这些限制条件下提供反馈，而且不能很好地推广。

GRPO RL 框架：作者使用了组相对策略优化（GRPO）RL 框架，它消除了批评者模型。有了 GRPO，你就跳过了 “教练”–通过使用预定义的规则（如连贯性和/或流畅性），在多轮比赛中对 LLM 移动进行评分。这些模型通过将这些分数与小组平均分进行比较来学习。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

DeepSeek R1背后的关键技术

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

DeepSeek R1 背后有三个关键理念：

一、思维链

二、强化学习

三、蒸馏

GRPO RL 框架

合力探索产业促共富18个工业大县“链”接18个山区县

互联网域名管理办法——域名服务

人工智能资讯|阿里云的AI“野心”

工业和信息化部信息通信管理局负责同志解读《关于创新信息通信行业管理优化营商环境的意见》

关于组织开展2021年度宁波市5G应用场景示范项目申报工作的通知

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

DeepSeek R1 背后有三个关键理念：

一、思维链

二、强化学习

三、蒸馏

GRPO RL 框架

Deepseek-R1实现原理概述

Deepseek的训练过程

相关推荐

联系我们

微信扫一扫关注我们