
- 预训练阶段:首先,模型在大规模的通用数据集上进行无监督预训练,学习语言的基本结构和知识。这一阶段的目标是让模型掌握丰富的语言特征。
- 数据准备:在进行监督微调之前,需要准备一个包含特定任务的标注数据集。这些数据集通常是针对特定应用(如情感分析、文本分类等)进行标注的。
- 微调过程:
- 模型复制:从预训练模型中复制出一个新的模型实例。
- 修改输出层:根据特定任务的需求,调整模型的输出层,以适应新的任务类别。
- 训练模型:使用标注好的数据集对模型进行训练,通过反向传播算法更新模型的参数,以优化其在特定任务上的表现。
如果你还不理解的话,可以看上图GPT-3的训练过程,他们第一步用到的就是监督微调。比如,我们要教授大语言模型如何来处理对话,通常的方式是使用聊天模板。这些模板定义了对话的结构,让模型知道哪个部分是用户输入,哪个部分是助手(大语言模型)响应。示例模板:
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|><|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|><|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
其中,<|im_start|>和<|im_end|>是有助于构建对话的特殊令牌。当然这些模块在输入模型之前也要令牌化:
这样训练之后,我们就可以得到一个对话型的大语言模型了,当然我们可以针对不同的任务还设计不同得到对话模型,来适配不同的任务场景,比如解决数学问题的大语言模型。除此之外,LLMs 面临的一个主要问题是 “幻觉” 现象,即模型自信地产生错误或化妆的信息。为了解决这个问题,DeepSeek 通过训练模型在不确定时使用外部工具进行查找,而不是盲目猜测答案。这种方法不仅提高了模型的准确性,还增强了其在实际应用中的可靠性。
比如,可以看到deepseek 对话框中有一个联网搜索,这种方式在一定的程度上可以解决幻觉问题。在Meta关于事实性的研究(从他们的Llama 3论文中)描述了一种改善幻觉的方法,具体步骤如下:
- 提取训练数据的片段。
- 使用Llama 3产生有关它的事实问题。
- 让Llama 3产生答案。
- 根据原始数据对响应进行评分。
- 如果不正确,请训练模型以识别和拒绝不正确的响应。
本质上,此过程教会模型认识自己的知识限制。修复幻觉的一种方法是训练模型在不知道答案时使用工具。这种方法遵循以下模式:
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|><|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>[...search results...]<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
通过反复的训练,模型了解到,如果他们不知道某事,他们应该查找它而不是做出事情。除此之外,强化学习对DeepSeek 的性能的提升起到了巨大的帮助。DeepSeek 利用强化学习(RL)来进一步提升其性能。通过自我实验和评估不同的解决方案,模型能够学习并优化其响应,以达到更高的效果。这一过程不需要人类的直接参与,模型能够自我学习并改进。也就是一旦模型接受了互联网数据的培训,它仍然不知道如何有效地使用其知识。监督的微调教会它模仿人类的反应,加强学习(RL)通过反复试验可以改善它。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalis
