大语言模型的深度神经网络架构-数智化转型网szhzxw.cn

数字化转型网人工智能研习社关注人工智能从技术到落地的全方面，包含机器学习算法、深度学习架构、自然语言处理（NLP）技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

语言模型的一个定义特征是它能够根据前面的文本推测后续的语词。深度神经网络框架被用在LLM中以提升其性能，使其表现出类似人类的理解力。LLM在其架构中使用不同的深度神经网络模型来提高任务性能。LLM是一种能够执行多种任务的动态模型，例如创建连贯的文本和总结文本。

Transformer体系架构是所有语言模型的基本组成部分。GPT-1模型是GPT的初始版本，采用了Transformer解码器（Decoder）架构。在GPT-1中，解码器架构独立于编码器（Encoder）运行，因此省去了链接到编码器的多头注意力机制（Multi-head Attention）和层归一化（Layer Norm）组件。预训练的GPT模型由12个Transformer块组成，共有1.1亿个参数。GPT-2模型是GPT的第二个版本，采用了与GPT-1类似的Transformer解码器架构。GPT-2主要有四种预训练模型，每个模型的解码器模块数量都不相同，最大的模型有48个模块，共包含15亿个模型参数。不同于采用Transformer解码器架构的GPT-1和GPT-2，BERT（Bidirectional Encoder Representations from Transformers）采用Transformer编码器架构，是为了双向表征学习而设计的双向语言模型，计算每个词元输出的可能性既取决于前一个词元，也取决于下一个词元，也即可以根据上下文预测句子中缺失的单词。BERT的较小变体由12个编码器模块组成，参数量约与GPT相同，较大的变体有24个编码器模块，有3.36亿个参数。数字化转型网www.szhzxw.cn

与BERT等纯编码器模型和GPT-1、GPT-2等纯解码器模型相比，T5（Text-toText Transfer Transformer）模型采用生成式跨度损坏和编码器—解码器架构。T5模型在各种自然语言处理任务上都表现出顶尖的性能，并且能够扩展多达数千亿个参数。LLaMA（Large Language Model Meta AI）模型对每个Transformer子层的输入（而非输出）进行归一化。为了提高性能，采用了RMSNorm归一化函数和SwiGLU激活函数。LaMDA（Language Model for Dialogue Applications）模型使用单个模型来执行多项任务，其模型架构是纯解码器Transformer语言模型。它的Transformer由64层组成，采用gated-GELU作为激活函数。AlphaCode采用编码器-解码器Transformer架构，其中将输入词元传递给编码器，从解码器中提取单个词元，直到生成代码结束词元。对比编码器-解码器架构与纯解码器架构，前者拥有支持双向描述表征的优势，并通过将编码器架构与解码器分离来提供额外的灵活性。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网人工智能研习社包含哪些内容

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于元战略；编辑/翻译：数字化转型网Jack。

大语言模型的深度神经网络架构

2023年世界经济论坛新领军者年会动态：2023夏季达沃斯，今日亮点回顾

《上海市进一步完善多元支付机制支持创新药械发展的若干措施》发布！支持生物医药产业创新发展

大型集团落地式数据治理的项目实施范围和内容是什么？

人工智能资讯|ElevenLabs CEO 预测：AI 语音模型将商品化，公司押注模型和应用双驱动

小家电打造产品力，企业从产品出海走向制造出海

联系我们

微信扫一扫关注我们

大语言模型在特定领域的应用

人工智能：大模型从技术到业务应用

相关推荐

联系我们

微信扫一扫关注我们