2026.1.22总结

Transformer 架构的了解

Transformer 是一种完全基于自注意力机制的深度学习模型架构。它摒弃了传统的循环(RNN)和卷积(CNN)结构,通过并行计算全局依赖关系,在自然语言处理等领域取得了突破性成果。

自注意力机制:模型能够同时关注输入序列中的所有元素,并动态计算它们之间的关联权重,从而直接捕捉长距离依赖关系。
并行计算:由于无需像RNN那样按顺序处理,可以充分利用硬件进行并行计算,极大提升了训练效率。
主要组成部分与流程:
输入处理:将输入的词汇(Token)转换为具有语义信息的数字向量。
编码器多头自注意力:核心组件。让模型从多个角度(多个“头”)同时分析输入序列中所有词之间的关系。

前馈神经网络:对每个位置的表示进行独立的非线性变换,提取更复杂的特征。

层归一化与残差连接:稳定训练过程,加速收敛,防止梯度消失。

解码器
掩码多头自注意力:确保在训练时,模型只能根据已生成的输出(当前位置及之前)进行预测,防止“偷看”未来信息。

交叉注意力:连接编码器和解码器的关键。解码器通过此机制“询问”编码器,在生成当前输出时应聚焦于输入序列的哪些部分。

同样包含前馈网络、层归一化和残差连接。
输出层
通过一个线性层和Softmax函数,将解码器的最终输出映射到整个词表上,预测下一个词的概率分布。

核心优势
强大的长程建模能力:自注意力机制能直接计算序列中任意两元素的关系,不受距离限制。

极高的训练效率:并行化结构大幅缩短了模型训练时间。
可扩展性:为后续BERT、GPT等巨型模型奠定了基础,推动了预训练大模型的发展。

posted @ 2026-02-05 23:44  臧博涛  阅读(3)  评论(0)    收藏  举报