【NLP技术】:Transformer原理和实现 从入门到精通

原文出处:https://state-of-art.top

概述

所谓 ”工预善其事,必先利其器“, Bert之所以取得这么惊才绝艳的效果,很大一部分原因源自于Transformer。为了后面更好、更快地理解BERT模型,这一节从Transformer的开山鼻祖说起,先来跟着”Attention is All You Need[1]“ 这篇文章,走近transformer的世界,在这里你再也看不到熟悉的CNN、RNN的影子,取而代之的是,你将看到Attention机制是如何被发挥的淋漓尽致、妙至毫颠,以及它何以从一个为CNN、RNN跑龙套的配角实现华丽逆袭。对于Bert来说,transformer真可谓天纵神兵,出匣自鸣!

看完本文,你大概能够:

  • 掌握Encoder-Decoder框架
  • 掌握残差网络
  • 掌握BatchNormalization(批归一化)和LayerNormalization(层归一化)
  • 掌握Position Embedding(位置编码)

当然,最重要的,你能了解Transformer的原理和代码实现。

全文阅读:Transformer原理和实现 从入门到精通

猜你喜欢

转载自blog.csdn.net/hxcaifly/article/details/86532204