Denoising Distantly Supervised Open-Domain Question Answering读书笔记

发表于ACL2018

解决的问题:

    DS-QA中的noise问题:许多包含答案但其实无关的段落。以往方法采用先选取一个最有可能的段落,再从中抽取答案。这样会损失信息。有人采取了Re-ranking机制,但仍依赖原有DS-QA system。本文采用从粗到细的方法,先利用IE抽一部分段落,再快速筛选出可能性高的段落,再从中选取答案。

采用的方法:

    对于IE之后的段落,采用Bi-LSTM编码,对Question也用Bi-LSTM+attention-weighted编码,对段落打分(softmax(max p_i*W*q))

    答案选取用Bi-LSTM预测每个位置作为起始位置和终止位置的概率

notes:

    对段落打分时,采用max-pooling。因为一个段落包含答案的概率取决于最大局部。

    正则化项。正确段落的打分应该相同。 

猜你喜欢

转载自blog.csdn.net/sjh18813050566/article/details/86632565