《Reading Wikipedia to Answer Open-Domain Questions》浅析

这是陈丹琦博士(四舍五入可以算作学姐了?)的论文。

论文名称:通过阅读维基百科来回答开放性问题。

1.维基不想其他的kb数据库那样方便计算机处理,(kb中的关系对于open-domin的问答很稀疏,并不好用)

2.定义一个过程叫做machine reading at scale (MRS):In order to answer any question, one must first retrieve the few relevant articles among more than 5 million items, and then scan them carefully to identify the answer.

3.像 IBM’s DeepQA,它其实是依赖于大量的知识,不仅仅是维基,还包括文章、新闻等。但是我们现在想通过单一的信息来源,比如维基,获取答案,这就要求机器一定能读懂文章,而不是简单的信息检索。

4.现有的一些数据集,比如SQUAD,它们的设置是答案就在给定的一小段文本中,这就有点easy了。现有的模型已经能够做得很好。

5.我们的模型分为两部分:Document Retriever和 Document Reader,其中Retriever已经优于维基内置的搜索引擎。并且我们的效果经过了多个数据集的检验,重点是我们用了multitask learning。

那么什么是multitask learning呢?

https://zhuanlan.zhihu.com/p/27421983该文章讲的很详细,总结来说就是  主任务(main tasks)使用相关任务(related tasks)的训练信号(training signal)所拥有的领域相关信息(domain-specific information),做为一直推导偏差(inductive bias)来提升主任务(main tasks)泛化效果(generalization performance)的一种机器学习方法。

6.回到论文中来,

猜你喜欢

转载自blog.csdn.net/weixin_40909358/article/details/88770897