2026.1.22总结

Transformer 架构的了解
、
Transformer 是一种完全基于自注意力机制的深度学习模型架构。它摒弃了传统的循环（RNN）和卷积（CNN）结构，通过并行计算全局依赖关系，在自然语言处理等领域取得了突破性成果。

自注意力机制：模型能够同时关注输入序列中的所有元素，并动态计算它们之间的关联权重，从而直接捕捉长距离依赖关系。
并行计算：由于无需像RNN那样按顺序处理，可以充分利用硬件进行并行计算，极大提升了训练效率。
主要组成部分与流程：
输入处理：将输入的词汇（Token）转换为具有语义信息的数字向量。
编码器多头自注意力：核心组件。让模型从多个角度（多个“头”）同时分析输入序列中所有词之间的关系。

前馈神经网络：对每个位置的表示进行独立的非线性变换，提取更复杂的特征。

层归一化与残差连接：稳定训练过程，加速收敛，防止梯度消失。

解码器
掩码多头自注意力：确保在训练时，模型只能根据已生成的输出（当前位置及之前）进行预测，防止“偷看”未来信息。

交叉注意力：连接编码器和解码器的关键。解码器通过此机制“询问”编码器，在生成当前输出时应聚焦于输入序列的哪些部分。

同样包含前馈网络、层归一化和残差连接。
输出层
通过一个线性层和Softmax函数，将解码器的最终输出映射到整个词表上，预测下一个词的概率分布。

核心优势
强大的长程建模能力：自注意力机制能直接计算序列中任意两元素的关系，不受距离限制。

极高的训练效率：并行化结构大幅缩短了模型训练时间。
可扩展性：为后续BERT、GPT等巨型模型奠定了基础，推动了预训练大模型的发展。

posted @ 2026-02-05 23:44 臧博涛阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

zangbotao

2026.1.22总结

公告