强烈推荐:https://jalammar.github.io/illustrated-transformer/
特点: 简单明了,清晰易懂。对Transformer里的self-attention(multi-head), positional encoding这些concepts有一个基本的认识。
缺点:具体细节仍需要进一步阅读其他资料。
不喜欢阅读英文的同学,可以看下这个很棒的中文资料:https://kexue.fm/archives/4765
优点: 有写者自己更多的思考、分析。可以帮助读者对Transformer里的模块有更深刻的认识。我要为写者点赞!
更进一步:
未完…