数字化转型网人工智能研习社关注人工智能从技术到落地的全方面,包含机器学习算法、深度学习架构、自然语言处理(NLP)技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

语言模型的一个定义特征是它能够根据前面的文本推测后续的语词。深度神经网络框架被用在LLM中以提升其性能,使其表现出类似人类的理解力。LLM在其架构中使用不同的深度神经网络模型来提高任务性能。LLM是一种能够执行多种任务的动态模型,例如创建连贯的文本和总结文本。
Transformer体系架构是所有语言模型的基本组成部分。GPT-1模型是GPT的初始版本,采用了Transformer解码器(Decoder) 架构。在GPT-1中,解码器架构独立于编码器(Encoder) 运行,因此省去了链接到编码器的多头注意力机制(Multi-head Attention) 和层归一化(Layer Norm) 组件。预训练的GPT模型由12个Transformer块组成,共有1.1亿个参数。GPT-2模型是GPT的第二个版本,采用了与GPT-1类似的Transformer解码器架构。GPT-2主要有四种预训练模型,每个模型的解码器模块数量都不相同,最大的模型有48个模块,共包含15亿个模型参数。不同于采用Transformer解码器架构的GPT-1和GPT-2,BERT(Bidirectional Encoder Representations from Transformers)采用Transformer编码器架构,是为了双向表征学习而设计的双向语言模型,计算每个词元输出的可能性既取决于前一个词元,也取决于下一个词元,也即可以根据上下文预测句子中缺失的单词。BERT的较小变体由12个编码器模块组成,参数量约与GPT相同,较大的变体有24个编码器模块,有3.36亿个参数。数字化转型网www.szhzxw.cn
与BERT等纯编码器模型和GPT-1、GPT-2等纯解码器模型相比,T5(Text-toText Transfer Transformer)模型采用生成式跨度损坏和编码器—解码器架构。T5模型在各种自然语言处理任务上都表现出顶尖的性能,并且能够扩展多达数千亿个参数。LLaMA(Large Language Model Meta AI)模型对每个Transformer子层的输入(而非输出)进行归一化。为了提高性能,采用了RMSNorm归一化函数和SwiGLU激活函数。LaMDA(Language Model for Dialogue Applications)模型使用单个模型来执行多项任务,其模型架构是纯解码器Transformer语言模型。它的Transformer由64层组成,采用gated-GELU作为激活函数。AlphaCode采用编码器-解码器Transformer架构,其中将输入词元传递给编码器,从解码器中提取单个词元,直到生成代码结束词元。对比编码器-解码器架构与纯解码器架构,前者拥有支持双向描述表征的优势,并通过将编码器架构与解码器分离来提供额外的灵活性。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网人工智能研习社包含哪些内容
数字化转型网人工智能研习社关注人工智能从技术到落地的全方面,包含机器学习算法、深度学习架构、自然语言处理(NLP)技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 元战略;编辑/翻译:数字化转型网Jack。

