(2020.6.25)BERT的token之间相关性

今天参考苏神 https://kexue.fm/archives/7476https://kexue.fm/archives/7430 这两篇博文,学习一下用BERT研究token之间相关性的方法,然后用SciBERT在论文文本里实践一下。

第一篇:SYNTHESIZER: Rethinking Self-Attention in Transformer Models
这篇文章尝试把注意力机制换一下,去掉pairwise的注意力,发现效果掉的也不多。不过在实践中,一般还是会用效果好的。所以这篇文章最大的价值应该是让人意识到,attention矩阵并不好用,里面表示的信息量并不大,因此利用价值也不大。

第二篇:Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
代码:https://github.com/LividWo/Perturbed-Masking
正是因为attention矩阵的利用价值不大,所以人们想获得token之间的相关性怎么办?需要其他方法,这一篇就是其中一种。但是这篇文章的本意是想探索依靠下游任务微调来探索BERT本身好坏的方法。处理的方式非常聪明,attention通过很复杂的NN已经没法搞清楚到底相互之间的关系怎么样了,所以我们就不通过计算、而是通过观测的方法来获得相互之间的关系怎么样。

猜你喜欢

转载自www.cnblogs.com/sqlkrad/p/13191150.html