BERT(一)—— BERT transformer attention 详解

先贴链接,后续有时间整理....

参考链接:

https://blog.csdn.net/jiaowoshouzi/article/details/89073944 BERT原理,说的很清楚,直接往后看

BERT模型的若干问题整理记录 & 思考  

如何评价 BERT 模型?

transformer问题整理(参考知乎大佬内容)

attention https://zhuanlan.zhihu.com/p/43493999

https://zhuanlan.zhihu.com/p/27769667 attention  代码

https://www.zhihu.com/question/68482809 attention  原理
https://zhuanlan.zhihu.com/p/31547842  √
https://zhuanlan.zhihu.com/p/53682800  attention +transformer

BERT bert 发展史 https://blog.csdn.net/jiaowoshouzi/article/details/89073944   

https://www.cnblogs.com/huangyc/p/9898852.html bert 原理  https://blog.csdn.net/u012526436/article/details/87637150

https://www.jianshu.com/p/63943ffe2bab  Bert需要理解的一些内容

http://blog.itpub.net/69942346/viewspace-2658642/ BERT 预训练模型演进过程 

attention: https://zhuanlan.zhihu.com/p/150294471   https://www.zhihu.com/question/68482809  https://blog.csdn.net/guofei_fly/article/details/105516732 

 soft attention、hard attention、 local attention结构

BERT_MRC https://blog.csdn.net/eagleuniversityeye/article/details/109601547

损失函数

BERT 官方代码中的分类模型的损失函数叫做负对数似然函数(且是最小化,等价于最大化对数似然函数),数学表达式是:

至于为何要定义这样的损失函数,则是因为在实际使用中,常用逻辑回归模型去解决分类问题,当逻辑回归撞上平方损失损失函数关于参数非凸。所以,不是分类问题中不使用平方损失,而是逻辑回归不使用平方损失。而代码中的 log_probs 使用了对数,故而不使用平方损失,而使用负对数似然损失函数 参考link

模型有两个 loss,一个是 Masked Language Model,另一个是 Next Sentence Prediction

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/108759047
今日推荐