深度学习之九(Transformers)

Transformers 是一种用于处理序列数据的深度学习模型,特别擅长于自然语言处理(NLP)任务。Transformer 是一种基于自注意力机制(Self-Attention Mechanism)的架构,于2017年由 Vaswani 等人在 “Attention is All You Need” 论文中提出,它在机器翻译任务中取得了显著的性能提升,广泛应用于自然语言处理和其他序列到序列的任务中。

概念:

  1. 自注意力机制(Self-Attention): Transformers 使用了自注意力机制,允许模型在处理序列数据时直接捕捉序列中不同位置之间的依赖关系,无需使用循环或卷积。

  2. 多头注意力(Multi-Head Attention): 通过同时运行多个自注意力机制,每个头产生不同的注意力表示,有助于模型捕捉不同层次的信息。

  3. 位置编码(Positional Encoding): 由于自注意力机制不包含序列中项目的顺序信息,因此位置编码用于为输入序列中的每个位置注入位置信息。

  4. 残差连接(Residual Connections)和层归一化(Layer Normalization): 在每个子层中,残差连接和层归一化有助于避免训练时的梯度消失或爆炸。

  5. 位置感知前馈网络(Position-wise Feed-Forward Networks):

Guess you like

Origin blog.csdn.net/u011095039/article/details/134600027