详细解读DeepSeek背后的大语言模型技术-数智化转型网szhzxw.cn

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

导读：想要了解DeepSeek背后的大语言模型技术吗！接下来我将通过四千字讲清楚DeepSeek背后的大语言模型技术。

Deepseek持续的爆红，不少人开始深究其背后的技术，但对于非专业的人员来说，弄清其原理，并非易事，最近Andrej Karpathy发布了标题为深入了解像ChatGPT这样的大语言模型的视频。整个视频有3个小时31分钟的时间。虽然内容很长，但干货多多，在接下来的内容中，我尽量以大多数人能接受的方式，来稍微讲讲目前大语言模型的基本原理。目前来看，想要训练一个大语言模型（LLMs ），第一步在于收集海量的数据。也就是说LLMs首先抓取互联网上海量的网页数据，以构建大量文本数据集。

比如一个代表性的数据集：FineWeb ，其中包含超过12亿个网页。问题是原始数据嘈杂，充满了重复的内容，低质量的文本和无关的信息。所以我们在训练之前，需要进行大量数据清洗。但清理之后的数据仍然是文本性质的数据。对于这些数据，我们的计算机还是不能够直接处理，所以接下来的步骤是将其转换为模型能够接收的令牌：结构化的数字表示。那什么是令牌化？令牌化是将文本分解为较小的、可处理的零件（令牌）的过程。这些令牌随后被转换为一系列的数字 ID，（比如，860）这使得神经网络能够以更高效的方式处理和生成语言。比如，字节对编码（BPE）是一种流行的令牌化技术，它通过合并字符对来逐步构建词汇表。

上图展示了”I” “View” “ing” “Single”令牌化的过程，一旦数据令牌化为tokens，它就会被馈入神经网络。其具体的过程如下：

大语言模型（neural network）在上下文窗口中采用了一组令牌（tokens）（例如，对于某些模型上下文为8,000，对于GPT-4，最高128K）。
它根据所学的模式预测了下一步的令牌。
模型中的权重调整了反向传播以减少错误。
随着时间的流逝，大语言模型学会了做出更好的预测。

事实上，更长的上下文窗口意味着模型可以从输入中“记住”更多，但也增加了计算成本。接下来是讲讲什么是神经网络？

神经网络内部的简单的示意图神经网络是一种受人脑结构和功能启发的机器学习模型，旨在模拟生物神经元的工作方式。它由多个相互连接的节点（称为神经元）组成，这些节点通过层次结构进行组织，能够处理和学习复杂的数据模式。神经网络在许多领域中得到了广泛应用，尤其是在自然语言处理（NLP）和计算机视觉等任务中表现出色。对于大语言模型来说通常采用变换器（Transformer）架构，这种架构通过自注意力机制来处理输入数据，能够有效捕捉词与词之间的关系。如果你想直观感受什么是Transformer结构，推荐你去浏览下面的链接：

Transformer结构的3D可视化地址：bbycroft.net/llm有了模型结构，那我们就可以通过上面提到的数据来训练上面的模型了，训练好大模型之后，我们就可以使用训练好的模型进行推理了。

对于DeepSeek 的基本模型，同样也是通过在大量互联网文本上进行预训练得到的。这些基本模型需要通过监督微调（Supervised Fine-Tuning，简称SFT）来提升其对话能力和有用性。在这个阶段，模型会通过聊天模板学习如何在对话中回应，这有助于模型区分用户输入和助手响应，从而提供更准确的信息。那什么是监督微调（SFT）？监督微调（Supervised Fine-Tuning，简称SFT）是一种用于调整预训练语言模型（Large Language Model, LLM）以适应特定任务的技术。它通过使用标注数据集对模型进行进一步训练，从而提高模型在特定应用场景中的表现。

SFT的工作原理

预训练阶段：首先，模型在大规模的通用数据集上进行无监督预训练，学习语言的基本结构和知识。这一阶段的目标是让模型掌握丰富的语言特征。
数据准备：在进行监督微调之前，需要准备一个包含特定任务的标注数据集。这些数据集通常是针对特定应用（如情感分析、文本分类等）进行标注的。
微调过程：
- 模型复制：从预训练模型中复制出一个新的模型实例。
- 修改输出层：根据特定任务的需求，调整模型的输出层，以适应新的任务类别。
- 训练模型：使用标注好的数据集对模型进行训练，通过反向传播算法更新模型的参数，以优化其在特定任务上的表现。

如果你还不理解的话，可以看上图GPT-3的训练过程，他们第一步用到的就是监督微调。比如，我们要教授大语言模型如何来处理对话，通常的方式是使用聊天模板。这些模板定义了对话的结构，让模型知道哪个部分是用户输入，哪个部分是助手（大语言模型）响应。示例模板：

<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|><|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|><|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>

其中，<|im_start|>和<|im_end|>是有助于构建对话的特殊令牌。当然这些模块在输入模型之前也要令牌化：

这样训练之后，我们就可以得到一个对话型的大语言模型了，当然我们可以针对不同的任务还设计不同得到对话模型，来适配不同的任务场景，比如解决数学问题的大语言模型。除此之外，LLMs 面临的一个主要问题是 “幻觉” 现象，即模型自信地产生错误或化妆的信息。为了解决这个问题，DeepSeek 通过训练模型在不确定时使用外部工具进行查找，而不是盲目猜测答案。这种方法不仅提高了模型的准确性，还增强了其在实际应用中的可靠性。

比如，可以看到deepseek 对话框中有一个联网搜索，这种方式在一定的程度上可以解决幻觉问题。在Meta关于事实性的研究（从他们的Llama 3论文中）描述了一种改善幻觉的方法，具体步骤如下：

提取训练数据的片段。
使用Llama 3产生有关它的事实问题。
让Llama 3产生答案。
根据原始数据对响应进行评分。
如果不正确，请训练模型以识别和拒绝不正确的响应。

本质上，此过程教会模型认识自己的知识限制。修复幻觉的一种方法是训练模型在不知道答案时使用工具。这种方法遵循以下模式：

<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|><|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>[...search results...]<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>

通过反复的训练，模型了解到，如果他们不知道某事，他们应该查找它而不是做出事情。除此之外，强化学习对DeepSeek 的性能的提升起到了巨大的帮助。DeepSeek 利用强化学习（RL）来进一步提升其性能。通过自我实验和评估不同的解决方案，模型能够学习并优化其响应，以达到更高的效果。这一过程不需要人类的直接参与，模型能够自我学习并改进。也就是一旦模型接受了互联网数据的培训，它仍然不知道如何有效地使用其知识。监督的微调教会它模仿人类的反应，加强学习（RL）通过反复试验可以改善它。什么是强化学习？

强化学习（Reinforcement Learning, RL）是一种机器学习方法，旨在通过智能体与环境的交互来学习最优决策策略。以下是强化学习的基本工作原理和关键概念：

基本概念

智能体（Agent）：执行动作的实体，负责在环境中进行决策。
环境（Environment）：智能体所处的外部系统，智能体通过与环境的交互来学习。
状态（State）：环境在某一时刻的具体情况，智能体根据当前状态做出决策。
动作（Action）：智能体在特定状态下可以选择的行为。
奖励（Reward）：环境对智能体所采取动作的反馈，通常是一个数值，表示该动作的好坏。

工作原理

试错学习：智能体通过在环境中进行试验，执行不同的动作并观察结果。每次动作后，环境会返回一个奖励信号，智能体根据这个信号调整其策略，以期在未来获得更高的奖励。
策略（Policy）：智能体根据当前状态选择动作的策略，可以是确定性的（每个状态对应一个特定动作）或随机的（根据概率分布选择动作）。
价值函数（Value Function）：用于评估在特定状态下，智能体未来可能获得的累计奖励。价值函数帮助智能体判断哪些状态更有利于获得高奖励。
探索与利用（Exploration vs. Exploitation）：智能体在学习过程中需要平衡探索新动作（可能获得更高的奖励）与利用已知的最佳动作（获得当前的高奖励）之间的关系。这一平衡是强化学习中的核心挑战之一。
马尔可夫决策过程（MDP）：许多强化学习算法基于MDP模型，该模型假设未来状态仅依赖于当前状态和所采取的动作，而与过去的状态无关。这种假设简化了学习过程，使得智能体能够更有效地进行决策

RL工作流程的示意图在大语言模型中RL不依赖于人类创建的数据集，而是让模型实验具有不同的解决方案，并确定哪些方法最有效。像OpenAI这样的公司对此进行了大量研究，当然他们是不愿意公开具体的模型算法。这就是为什么DeepSeek让他们闻风丧胆的原因。从DeepSeek的论文可以看出RL和FT带来了具体的推理能力。从Deepseek论文中取出的一个例子表明，随着时间的流逝，该模型能够使用更多的令牌来获得更好的推理。

您可以看到该模型在这里具有这个“ aha”时刻，这不是您可以通过在数据集上的训练来明确教授模型的内容。这是模型必须通过加强学习来弄清楚的东西。这种技术的优点是，该模型在推理方面变得更好，但是会导致消耗越来越多的tokens。事实上，RL曾在围棋游戏中大放异彩！除此之外，还有一个比较重要的技术：从人类反馈学习（RLHF）从人类反馈学习（Reinforcement Learning from Human Feedback，简称RLHF）是一种结合了强化学习和人类反馈的机器学习技术，其主要目标是：旨在优化模型的输出，使其更符合人类的期望和需求。

RLHF的基本流程

初步训练：首先，使用传统的监督学习或无监督学习方法对模型进行预训练，使其掌握基础的语言结构和知识。
生成输出：模型根据输入生成多个候选输出，这些输出可能是对话回复、文本生成等。
人类反馈收集：人类评审员对模型生成的输出进行评估，提供反馈。这种反馈可以是评分、偏好选择（例如哪个输出更好）或详细的文本评论。
奖励模型构建：将人类的反馈转化为奖励信号，构建一个奖励模型。这个模型用于评估模型输出的质量，帮助模型学习哪些输出更符合人类的偏好。
策略优化：使用强化学习算法（如策略梯度方法）对模型进行优化，使其在生成输出时能够最大化奖励模型的评分。这一过程通常是迭代的，模型会不断调整其策略，以提高未来输出的质量。

RLHF的优势

提高输出质量：通过直接针对人类满意度进行优化，RLHF能够生成更自然、合适的输出。
适应性强：模型能够学习特定情境下的细微差别和文化偏好，提高在特定领域的适用性。
伦理和安全性：通过纳入人类的价值观，RLHF有助于避免生成有害或不合伦理的内容。

使用人为反馈（RLHF）的LLMS的强化学习的流程图
有了以上各种组件的加持（数据预处理、令牌化、基于变压器的神经网络以及通过监督微调和强化学习提升的性能），我们就可以训练一个功能强大的大语言模型。当然，这些技术的结合使得 DeepSeek 能够在多种场景中提供准确的信息和服务，从而在智能助手、自动内容创作等领域展现出巨大的潜力。尤其是通过强化学习从人类反馈（RLHF）的方法，DeepSeek 能够进一步提升其在无法验证的领域中的表现，减少幻觉现象，提高模型的自我认知和推理能力。未来来看，大语言模型 LLMs 将不仅限于文本处理，还将扩展到多模式交互，与人类形成更加紧密的协作关系，最终实现普遍存在的无形 AI，以及与计算机交互的能力。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

详细解读DeepSeek背后的大语言模型技术

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

SFT的工作原理

基本概念

工作原理

RLHF的基本流程

RLHF的优势

企业出海的市场选择逻辑，大市场还是小市场？

《工业和信息化部等十一部门关于推动新型信息基础设施协调发展有关事项的通知》解读——部署工作、实施保障

人工智能大模型数据治理

关于开展2024年湖南省智能制造标杆企业和标杆车间申报工作的通知

加快构建国家水网全面提升国家水安全保障能力

联系我们

微信扫一扫关注我们

数字化转型网（Professionalism Achieves Leadership 专业造就领导者）人工智能专题

SFT的工作原理

基本概念

工作原理

RLHF的基本流程

RLHF的优势

三张图速通 DeepSeek-R1 论文和技术原理

DeepSeek 技术全解析：从入门到精通

相关推荐

联系我们

微信扫一扫关注我们