Adaptive Document Retrieval for Deep Question Answering

EMNLP 2018 Adaptive Document Retrieval for Deep Question Answering

背景

阅读理解模型的处理过程可以分为两步:

  • 从文档集中根据问题检索可能包含答案的文档
  • 从检索到的文档中寻找包含答案的具体区域

现有的方法在以上的两步各自都可以取得不错的效果,但是很少有人思考针对于不同的数据集到底应该检索多少文档。如果按照某种经验来做,往往会带来不少的噪声,最后得到的结果自然也就是次优的。因此,本文中作者提出了一种自适应的文档减缩模型,它可以根据问题和数据集的大小自动的调整文档检索的数量。

作者还真是另辟跷径呀,有时一个有趣的思考问题的角度远比刷SOTA有趣呀~

在阅读理解中,检索文档的数量确定是一个影响最终效果的关键性问题。如果检索的文档过多,那么自然包含答案的可能越大,但是同样会引入更多的噪声,对于后续答案范围的确定必然具有一定的影响;如果检索的文档太少,很可能检索到的文档并不包含问题对应的答案,因此后续的工作就无从谈起了。

为此作者进行了相关的实验:研究数据集的大小对于不同指标的影响程度


在这里插入图片描述

从上面的结果中可以看出,召回率随着语料库的增大而降低,但这并不一定会影响top-n的结果,因为它通常包含不止一次的正确答案。这样的结果符合逻辑,同样也符合我们对于该问题的认知。因此如何从实验结果出发,找到一种自动调整文档检索数量 n n 的方法就很关键了。

本文所提出的自适应方法目的是寻找到一个合适的 n n ,其中 n ( 1 , τ ) n \in (1,\tau) 。当给定 τ \tau 个文档 [ d i ( 1 ) , d i ( 2 ) , . . . , d i ( τ ) , ] [d_{i}^{(1)},d_{i}^{(2)},...,d_{i}^{(\tau)},] 时,我们可以使用简单的TF-IDF或者是更复杂的概率模型对文档进行打分,根据计算的分数来确定检索的数量。

  • 启发式方法:假设提前设定好一个得分的阈值,当检索文档中计算得分超过了给定的阈值后,就确定 n n 为此时已检索的文档的数量 n i = max k j = 1 k s i ( j ) < θ n_{i} = \max_{k} \sum_{j=1}^k s_{i}^{(j)} < \theta
  • 回归式方法:这里使用岭回归来预测第一个相关文档的位置 y i y_{i} 近似 n i n_{i}
    y i = f ( [ s i 1 , . . . , [ s i τ ] ] ) = [ s i T β ] y_{i}=f([s_{i}^{1},...,[s_{i}^{\tau}]])=[s_{i}^T \beta]

最后等式右边不是[],而是上限函数(ceiling function)的记号,我不知道在makedown中怎么敲…

那么对应的损失函数为: L = [ X β ] y 1 + λ β 2 L=||[X \beta] - y||_{1} + \lambda||\beta||_{2}

实验

可见原文!

发布了267 篇原创文章 · 获赞 91 · 访问量 19万+

猜你喜欢

转载自blog.csdn.net/Forlogen/article/details/103184090