Transformer的应用

  Transformer是基于注意力机制的编码器和解码器。而BERT使用了Transformer的编码器,使用了完形填空的自监督的训练机制。MAE把训练拓展到没有标签的数据上。

猜你喜欢

转载自blog.csdn.net/weixin_47532216/article/details/121870911