让机器读懂人类：探索问答系统和机器阅读理解

学习内容来自： CSDN在线直播教程林德康

一、问答系统概念

问答系统在搜索引擎中的应用

略…

基于知识图谱的问答系统

high precision
great for head queries
must anticipate all questions
restricted to short answers
costly to make data fresh and complete

知识图谱的维护需要大量人力。

如果问谷歌：燕京啤酒酒精含量，谷歌没有这个数据，是回答不上来的。
这时就可以通过IR-based问答，先从搜索引擎中搜索问题。
这里写图片描述

接下来内容主要针对搜索的问答系统，流程图：
这里写图片描述

模块化系统包含哪些组件

示例：
这里写图片描述

1. 对query分析，找到关键词

通过关键词可以知道用户要找的具体是什么东西。

这里写图片描述

示例：
这里写图片描述

怎么找关键词？
- Wh-word itself:when/where/who
- The first noun phrase after which/what
– what enzyme breaks down strarch?
- 没有wh-word，借助其它带wh-word示例
这里写图片描述

这里写图片描述

扫描二维码关注公众号，回复： 2853800 查看本文章

2. 找到answer type

answer type 示例：
这里写图片描述

有了answer type就可以把可能的答案进行打分，
- 对answer type的匹配度
- 对问题匹配度
- 答案在不同网页里出现的次数

二、端对端阅读理解

任务定义
数据集
任务演化
主流模型

1. 阅读理解任务定义

阅读理解任务任务可以被定义为一个监督学习的问题（Herzmann et al., 2015）
- 给定一个上下文文档c（篇章p）

这里写图片描述

2. 常见数据集

阅读理解数据集CNN、Daily Mail数据集

以CNN和Daily Mail新闻文章作为来源文档
将文章的要点句子里变成完形填空形式的问题
答案是文档中的一个实体

这里写图片描述

SQuAD数据集

这里写图片描述

* MS MARCO数据集*

问题来自搜索引擎真实用户query
相关文档是信息检索系统从真实网页得到的段落，每个问题对应多个段落
标注答案是人工根据文档总结撰写而成

DuReader数据集

百度来自搜索引擎真实用户query，包括事实性问题和意见性问题
相关文档是从搜索引擎得到的排名靠前结果的网页全文，一个问题对应多篇文档
标注答案是人工根据文档总结撰写而成，一个问题可能对应多个答案

这里写图片描述

端对端模型结构

向量特征表示
对问题和篇章分别进行编码
利用注意力机制融合问题和篇章信息
利用指针网络进行答案抽取

这里写图片描述

将问题和篇章转化为向量化特征表示：

词向量将每个词语转为高维空间上的值（GloVe等）
字符向量序列构成的词表示（英文）
词性标注（POS tag），名词、动词、形容词等
篇章词语是否出现在问题中（word-in-question feature）
问题的类型（what,where,when,who,how,which等）

对问题和篇章分别进行编码

以特征表示向量序列{xi}为输入
分别对问题和篇章使用双向循环神经网络（LSTM/GRU）表示

这里写图片描述

多个状态向量代替一个状态向量来表示句子
对于每个输入向量可以关注不同的状态向量

利用注意力机制融合问题和篇章信息
- Match-LSTM （Wang and Jiang,2016）
- 双向注意力机制：BiDAF(Seo et al.,2015)和DCN(Xiong et al.2016)
- 自注意力（self-attention）:R-Net(Wang et al., 2017)

3. 多篇章阅读理解模型

一个问题对应多个篇章

在答案抽取层以前每个篇章分别处理
之后将隐层表示连接在一起放入指针网络，以选择一个答案片段
利用辅助任务预测答案是否从当前篇章产生（Tan et al., 2018）
分别产生答案再相互验证（Wang et al.,2018）

目标函数和最小风险训练

最大似然估计
这里写图片描述
最小风险训练

4. 指针网络（Pointer network）和篇章片段抽取

大部分工作将阅读理解任务建模成篇章片段抽取问题–问题的答案对应篇章内的一个片段
指针网络将注意力机制的权重分数作为输出，表示在状态向量序列的一个概率分布
利用两步的指针网络，以匹配层的结果作为状态向量序列，预测答案片段在篇章中的开始和结束位置