Adaptive Document Retrieval for Deep Question Answering

EMNLP 2018 Adaptive Document Retrieval for Deep Question Answering

背景

阅读理解模型的处理过程可以分为两步：

从文档集中根据问题检索可能包含答案的文档
从检索到的文档中寻找包含答案的具体区域

现有的方法在以上的两步各自都可以取得不错的效果，但是很少有人思考针对于不同的数据集到底应该检索多少文档。如果按照某种经验来做，往往会带来不少的噪声，最后得到的结果自然也就是次优的。因此，本文中作者提出了一种自适应的文档减缩模型，它可以根据问题和数据集的大小自动的调整文档检索的数量。

作者还真是另辟跷径呀，有时一个有趣的思考问题的角度远比刷SOTA有趣呀~

在阅读理解中，检索文档的数量确定是一个影响最终效果的关键性问题。如果检索的文档过多，那么自然包含答案的可能越大，但是同样会引入更多的噪声，对于后续答案范围的确定必然具有一定的影响；如果检索的文档太少，很可能检索到的文档并不包含问题对应的答案，因此后续的工作就无从谈起了。

为此作者进行了相关的实验：研究数据集的大小对于不同指标的影响程度

从上面的结果中可以看出，召回率随着语料库的增大而降低，但这并不一定会影响top-n的结果，因为它通常包含不止一次的正确答案。这样的结果符合逻辑，同样也符合我们对于该问题的认知。因此如何从实验结果出发，找到一种自动调整文档检索数量 $n$ 的方法就很关键了。

本文所提出的自适应方法目的是寻找到一个合适的 $n$ ，其中 $n \in (1,\tau)$ 。当给定 $\tau$ 个文档 $[d_{i}^{(1)},d_{i}^{(2)},...,d_{i}^{(\tau)},]$ 时，我们可以使用简单的TF-IDF或者是更复杂的概率模型对文档进行打分，根据计算的分数来确定检索的数量。

启发式方法：假设提前设定好一个得分的阈值，当检索文档中计算得分超过了给定的阈值后，就确定 $n$ 为此时已检索的文档的数量 $n_{i} = \max_{k} \sum_{j=1}^k s_{i}^{(j)} < \theta$
回归式方法：这里使用岭回归来预测第一个相关文档的位置 $y_{i}$ 近似 $n_{i}$
$y_{i}=f([s_{i}^{1},...,[s_{i}^{\tau}]])=[s_{i}^T \beta]$

最后等式右边不是[]，而是上限函数（ceiling function）的记号，我不知道在makedown中怎么敲…

那么对应的损失函数为： $L=||[X \beta] - y||_{1} + \lambda||\beta||_{2}$

实验

可见原文！

Forlogen

发布了267 篇原创文章 · 获赞 91 · 访问量 19万+

私信关注

Adaptive Document Retrieval for Deep Question Answering

背景

实验

猜你喜欢