写了上一篇，就必有这一篇~

1. TRM在做啥？

我们输入一个I love you，输出我爱你，输入一段声音，输出得到你真美。输入长度跟输出长度没有决定性的关系，由机器决定输出的是什么。

2. TRM原理

2.1 TRM模型结构

2.2 Encoder

encoder是由6层独立的layers构成。每层由两个子层，就是上图左边的两个。第一个是一个多头 self-attention结构。第二个是一个简单的基于点的全连接前向网络。

输入b经过self-attention后得到a，借鉴了残差网络的思想使输入跟self-attention的输出相加得到结果在输入至 layar Normalization，得到的输出才是全连接网络层的输入，在经过一个残差连接来连接输出和输入。并且对输出的结构层上做了LayerNorm，得到的输出才是一个block的输出。这个block会重复n次。

2.2.1 Layer Norm

Norm的意思就是在后面跟了一个归一化层。

为什么要使用层归一化：
一是解决梯度消失的问题，二是解决权重矩阵的退化问题，可以更好的解决梯度爆炸，梯度消失在深层网络中的问题，因为逐层进行了归一化，可以使得梯度传导的更稳定。残差路径上传来的向量和Self-Attention计算得到的向量相加后进行Layer-Normalization，即层标准化。Layer Norm对同一个样本同一层的所有神经元进行标准化，使它们满足标准正态分布。LayerNorm的主要思想是:是在每一个样本(一个样本里的不同通道)上计算均值和方差，而不是 BN 那种在批方向计算均值和方差。

2.2.2 BatchNorm

主要思想：在每一层的每一批数据(一个batch里的同一通道)上进行归一化。Batch Norm则是对Batch内不同样本的同一个神经元所有值进行标准化。

2.2.3 LN和BN的区别

理解下来就是，比如说两个sequence，你是天边最美的云彩和让我把你留下来哈哈，LN是在自己的句子里计算均值和方差，而BN是你和让做均值和方差，所以BN不可，LN更好。

2.2.4 小总结

输入inputs,得到input embedding，然后碰到位置嵌入，相加作为整体的输入，遇到一个多头注意力机制，计算之后，与输入一起经过残差得到一个结果，在经过一个LN得到输出结果，再碰到了一个两层的全连接层，在经过残差，输出结果。

2.3 Decoder

Decoder也是由6层的独立层组成，用了三个子层。用于对encoder的输出做multi-head self attention。具体结构都一样，也是在子层上应用了残差连接，再在子层输出加上一个LayerNorm。但是论文在decoder中的multi-head self attention 做了一个mask修改。目的是为了防止序列之后的位置被用于预测前面的位置信息，造成对模型的信息泄漏。