算法：骨干网络Transformer架构-数智化转型网szhzxw.cn

数字化转型网人工智能研习社关注人工智能从技术到落地的全方面，包含机器学习算法、深度学习架构、自然语言处理（NLP）技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

目前主流大模型可以根据骨干网络架构的差异分 Encoder-only、Encoder-Decoder、Decoder-only 共 3 类，如下图：数字化转型网www.szhzxw.cn

其中 Encoder-only 主要为谷歌的 Bert 及其衍生优化版本；

使用 Encoder-Decoder 架构的模型有谷歌的 T5 以及清华智谱的 GLM 等；

OpenAI 的GPT 系列、Anthropic 的 Claude 系列、Meta 的 LLaMA 系列等均采用 Decoder-Only架构。

Decoder-Only 架构更适合生成类任务且推理效率更高，为大模型厂商所青睐：

功能方面：Encoder-Only 架构更擅长理解类而非生成类任务，以采用 Encoder-Only 架构的 Bert 为例，其学习目标包括 Masked LM(随机遮盖句子中若干 token 让模型恢复)和 Next Sentence Prediction(让模型判断句对是否前后相邻关系)，训练目标与文本生成不直接对应；

推理效率方面：Encoder-Decoder 和 Decoder-Only 架构均能够用于文本生成，但在模型效果接近的情况下，后者的参数量和占用的计算资源更少，且具有更好的泛化能力。

三种骨干网络特点对比如下图：数字化转型网www.szhzxw.cn

Transformer 模型结构及自注意力机制原理如下图：

Transformer 模型采用编码器-解码器结构:

其中编码器负责从输入内容中提取全部有用信息，并使用一种可以被模型处理的格式表示（通常为高维向量）；数字化转型网www.szhzxw.cn

而解码器的任务是根据从编码器处接收到的内容以及先前生成的部分序列，生成翻译后的文本或目标语言。

自注意力机制（Self-Attention）使得 Transformer 架构能够处理多模态任务。自注意力机制将输入数据进行线性映射创建三个新向量，分别为 Q/K/V

其中 Q 向量可以看作是某个人的关注点

V 向量可以看作是具体的事物

而 K 向量可以看作是人对不同事物的关注程度。数字化转型网www.szhzxw.cn

通过计算 Q 向量和 K 向量的点乘，可以得出一个值，表示这个人对某个事物的关注程度，然后将这个关注程度与 V 向量相乘，以表示事物在这个人眼中的表现形式。

这种方式使得模型能够更好地捕捉长序列中不同部分的关联性和重要性，而各种模态的信息均可以通过一定方式转化为一维长序列，因而Transformer 具备处理多模态问题的能力。

以上海 AI Lab 和香港大学联合推出的 Meta-Transformer 为例，该模型通过一个多模态共享的分词器，将不同模态的输入映射到共享的数据空间中，进而实现了处理 12种非成对的模态数据，包括文本、图像、点云、音频、视频、X 光、红外等。

将 Transformer 与其他模态领先算法融合，能够显著提升多模态处理能力，有望加速大模型多模态融合趋势。数字化转型网www.szhzxw.cn

24 年 2 月 OpenAI 发布文生视频大模型 Sora，主要根据Diffusion Transformer（DiT）框架设计而成。其中，扩散模型（Diffusion）是一种图像生成方法，通过逐步向数据集中添加噪声，然后学习如何逆转这一过程。

扩散模型能够生成高质量的图像和文本，但仍存在可扩展性低、生成效率低等问题。

DiT 模型在扩散模型基础上引入 Transformer 架构，通过将图像分割成小块（patches），并将这些块作为序列输入到 Transformer 中，DiT 能够有效地处理图像数据，同时保持了Transformer 在处理序列数据时的优势，能够显著改善扩散模型的生成效率。此外，将自动驾驶领域的 BEV（鸟瞰视图）模型与 Transformer 相结合，已经成为目前自动驾驶领域主流感知框架，并在众多辅助驾驶产品中量产应用。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网人工智能研习社包含哪些内容