数智化转型网szhzxw.cn 数字化转型网专题栏目 Transformer整体流程:从输入到输出

Transformer整体流程:从输入到输出

数字化转型网人工智能研习社关注人工智能从技术到落地的全方面,包含机器学习算法、深度学习架构、自然语言处理(NLP)技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

让我们先从宏观层面看看Transformer处理一段文本的过程:

1. 分词(Tokenization)
将输入文本拆分为大量「标记」(token)。这些token可能是完整词语,也可能是子词片段、标点符号或字符子集。Token通常基于BPE(Byte-Pair Encoding)或SentencePiece等算法生成,以在字词级和字符级之间取得平衡,使模型能处理未知词汇和不同语言。数字化转型网www.szhzxw.cn

2. 词嵌入(Embedding)与位置编码(Positional Encoding)
每个token被映射为一个高维向量(如数千维)。这些向量在语义空间中具有一定结构,相似含义的词嵌入彼此接近。此外,Transformer本身对词序没有内在理解,因此需要加入位置编码(Positional Encoding)向量,使模型能够区分「猫坐在桌上」与「桌子坐在猫上」的差别。位置编码通常采用正弦和余弦函数,以在任意序列长度下保有位置信息。

3. 多头注意力(Multi-Head Attention)
输入序列的嵌入向量进入关键模块——注意力层。

• 在注意力中,每个token都会生成「查询(Query)」、「键(Key)」和「值(Value)」三个向量。

• 对于序列中的任意两个token,查询向量与键向量的点积决定了它们之间的相关性权重。这个权重用于加权值向量,从而在上下文中动态聚合信息。数字化转型网www.szhzxw.cn

• 多头注意力意味着不止一套Q、K、V映射,每个头专注于不同的语义或语法特征。例如,一个注意力头或许侧重动词与主语的关系,另一个头可能侧重地名与国家的关联。

4. 前馈网络(Feed-Forward Network,FFN)
在注意力层之后,每个token的向量再通过一层非线性前馈网络处理。

• FFN对每个token独立处理,将其映射到更高维空间再映射回来,有点像对向量进行一系列特定问题的问答。

• FFN帮助模型提取更抽象、更高级的特征。当注意力用于信息融合时,FFN则在融合后的表示上加强非线性变换,提升模型表示能力。数字化转型网www.szhzxw.cn

5. 层堆叠(Stacking Layers)
Transformer通常由N层相同结构(多头注意力 + FFN + 残差连接与归一化)叠加而成。数据通过多轮交互不断丰富其表示。规模越大、层数越多,模型捕捉复杂语义的能力越强。

6. 输出层与概率分布(Softmax)
在处理完成后,模型需要预测下一个词的概率分布。通过一组映射回词表的权重矩阵(unembedding matrix)和Softmax函数,将高维向量映射到词汇表中每个token的概率上。Softmax确保所有概率和为1,高值对应高概率单词。通过多次迭代预测与抽样,模型即可生成连贯自然的文本。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网人工智能研习社包含哪些内容

数字化转型网人工智能研习社关注人工智能从技术到落地的全方面,包含机器学习算法、深度学习架构、自然语言处理(NLP)技术、计算机视觉技术、AI+医疗健康、AI+交通出行、AI+金融、AI+制造、AI+消费品、AI+互联网、数据隐私和安全、算法公平性、产业生态建设、政策法规制定与完善等。

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于LLMQuant;编辑/翻译:数字化转型网Jack。

数字化资料下载-思思
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/54553.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部