这篇论文是做是一个做问答对匹配的模型,在多个回答里选出正确的那个答案,整篇论文相对简单。
之前的问答对匹配模型是将CNN或者BiLSTM提取后的特征向量相互做余弦相似度,这篇论文的创新是加上了Attention层和使用不同的pooling层,column-wise max pooling 和 row-wise max pooling
之前的模型是
本篇论文的模型是
Q 和 A 是问题和答案通过CNN或者BiLSTM得到的特征向量,将Q和A做一个词对齐:, 其中 U 是参数矩阵,这个参数矩阵是不断学习的,这其实就是Attention机制中的计算score的方式。
接着通过column-wise max pooling 和 row-wise max pooling生成两个向量,
然后通过softmax归一化后再分别与Q和A进行相乘,得到两个向量 和 ,最后再将两个向量做余弦距离。
这个就是这篇论文的思想。