SFT的工作原理是什么？-数智化转型网szhzxw.cn

预训练阶段：首先，模型在大规模的通用数据集上进行无监督预训练，学习语言的基本结构和知识。这一阶段的目标是让模型掌握丰富的语言特征。
数据准备：在进行监督微调之前，需要准备一个包含特定任务的标注数据集。这些数据集通常是针对特定应用（如情感分析、文本分类等）进行标注的。
微调过程：
- 模型复制：从预训练模型中复制出一个新的模型实例。
- 修改输出层：根据特定任务的需求，调整模型的输出层，以适应新的任务类别。
- 训练模型：使用标注好的数据集对模型进行训练，通过反向传播算法更新模型的参数，以优化其在特定任务上的表现。

如果你还不理解的话，可以看上图GPT-3的训练过程，他们第一步用到的就是监督微调。比如，我们要教授大语言模型如何来处理对话，通常的方式是使用聊天模板。这些模板定义了对话的结构，让模型知道哪个部分是用户输入，哪个部分是助手（大语言模型）响应。示例模板：

<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|><|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|><|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>

其中，<|im_start|>和<|im_end|>是有助于构建对话的特殊令牌。当然这些模块在输入模型之前也要令牌化：

这样训练之后，我们就可以得到一个对话型的大语言模型了，当然我们可以针对不同的任务还设计不同得到对话模型，来适配不同的任务场景，比如解决数学问题的大语言模型。除此之外，LLMs 面临的一个主要问题是 “幻觉” 现象，即模型自信地产生错误或化妆的信息。为了解决这个问题，DeepSeek 通过训练模型在不确定时使用外部工具进行查找，而不是盲目猜测答案。这种方法不仅提高了模型的准确性，还增强了其在实际应用中的可靠性。

比如，可以看到deepseek 对话框中有一个联网搜索，这种方式在一定的程度上可以解决幻觉问题。在Meta关于事实性的研究（从他们的Llama 3论文中）描述了一种改善幻觉的方法，具体步骤如下：

提取训练数据的片段。
使用Llama 3产生有关它的事实问题。
让Llama 3产生答案。
根据原始数据对响应进行评分。
如果不正确，请训练模型以识别和拒绝不正确的响应。

本质上，此过程教会模型认识自己的知识限制。修复幻觉的一种方法是训练模型在不知道答案时使用工具。这种方法遵循以下模式：

<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|><|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>[...search results...]<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>

通过反复的训练，模型了解到，如果他们不知道某事，他们应该查找它而不是做出事情。除此之外，强化学习对DeepSeek 的性能的提升起到了巨大的帮助。DeepSeek 利用强化学习（RL）来进一步提升其性能。通过自我实验和评估不同的解决方案，模型能够学习并优化其响应，以达到更高的效果。这一过程不需要人类的直接参与，模型能够自我学习并改进。也就是一旦模型接受了互联网数据的培训，它仍然不知道如何有效地使用其知识。监督的微调教会它模仿人类的反应，加强学习（RL）通过反复试验可以改善它。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalis

SFT的工作原理是什么？

丰田研究院亮出机器人AI大招：无须人工编码，利用触觉高效学习新技能

数据技术和产业重点支持方向：数据治理

数字下乡，村务上网——贵阳大力推进乡村数字治理

关于做好2024年湖南省“湘企英才”中小企业经营管理人员专题培训的通知

黑鲨科技，一家中国游戏手机公司的普通失败

联系我们

微信扫一扫关注我们

什么是监督微调（SFT）？

什么是强化学习？

相关推荐

联系我们

微信扫一扫关注我们