Attentive Pooling Networks论文讲解

这篇论文是做是一个做问答对匹配的模型,在多个回答里选出正确的那个答案,整篇论文相对简单。

之前的问答对匹配模型是将CNN或者BiLSTM提取后的特征向量相互做余弦相似度,这篇论文的创新是加上了Attention层和使用不同的pooling层,column-wise max pooling 和 row-wise max pooling

之前的模型是

本篇论文的模型是

Q 和 A 是问题和答案通过CNN或者BiLSTM得到的特征向量,将Q和A做一个词对齐:tanh(Q^TUA), 其中 U 是参数矩阵,这个参数矩阵是不断学习的,这其实就是Attention机制中的计算score的方式。

接着通过column-wise max pooling 和 row-wise max pooling生成两个向量,

然后通过softmax归一化后再分别与Q和A进行相乘,得到两个向量 r_q和 r_a,最后再将两个向量做余弦距离。

这个就是这篇论文的思想。

发布了25 篇原创文章 · 获赞 1 · 访问量 1440

猜你喜欢

转载自blog.csdn.net/Matrix_cc/article/details/104783510