让机器读懂人类:探索问答系统和机器阅读理解

学习内容来自 : CSDN在线直播教程 林德康

一、问答系统概念

问答系统在搜索引擎中的应用

略…

基于知识图谱的问答系统

  • high precision
  • great for head queries
  • must anticipate all questions
  • restricted to short answers
  • costly to make data fresh and complete

知识图谱的维护需要大量人力。

如果问谷歌:燕京啤酒酒精含量,谷歌没有这个数据,是回答不上来的。
这时就可以通过IR-based问答,先从搜索引擎中搜索问题。
这里写图片描述

接下来内容主要针对搜索的问答系统,流程图:
这里写图片描述

模块化系统包含哪些组件

示例:
这里写图片描述

1. 对query分析,找到关键词

通过关键词可以知道用户要找的具体是什么东西。

这里写图片描述

示例:
这里写图片描述

怎么找关键词?
- Wh-word itself:when/where/who
- The first noun phrase after which/what
– what enzyme breaks down strarch?
- 没有wh-word,借助其它带wh-word示例
这里写图片描述

这里写图片描述

扫描二维码关注公众号,回复: 2853800 查看本文章

2. 找到answer type

answer type 示例:
这里写图片描述

有了answer type就可以把可能的答案进行打分,
- 对answer type的匹配度
- 对问题匹配度
- 答案在不同网页里出现的次数

二、端对端阅读理解

  • 任务定义
  • 数据集
  • 任务演化
  • 主流模型

1. 阅读理解任务定义

阅读理解任务任务可以被定义为一个监督学习的问题(Herzmann et al., 2015)
- 给定一个上下文文档c(篇章p)

这里写图片描述

2. 常见数据集

阅读理解数据集CNN、Daily Mail数据集

  • 以CNN和Daily Mail新闻文章作为来源文档
  • 将文章的要点句子里变成完形填空形式的问题
  • 答案是文档中的一个实体

这里写图片描述

SQuAD数据集

这里写图片描述

* MS MARCO数据集*

  • 问题来自搜索引擎真实用户query
  • 相关文档是信息检索系统从真实网页得到的段落,每个问题对应多个段落
  • 标注答案是人工根据文档总结撰写而成

DuReader数据集

  • 百度来自搜索引擎真实用户query,包括事实性问题和意见性问题
  • 相关文档是从搜索引擎得到的排名靠前结果的网页全文,一个问题对应多篇文档
  • 标注答案是人工根据文档总结撰写而成,一个问题可能对应多个答案

这里写图片描述

端对端模型结构

  • 向量特征表示
  • 对问题和篇章分别进行编码
  • 利用注意力机制融合问题和篇章信息
  • 利用指针网络进行答案抽取

这里写图片描述

将问题和篇章转化为向量化特征表示:

  • 词向量将每个词语转为高维空间上的值(GloVe等)
  • 字符向量序列构成的词表示(英文)
  • 词性标注(POS tag),名词、动词、形容词等
  • 篇章词语是否出现在问题中(word-in-question feature)
  • 问题的类型(what,where,when,who,how,which等)

对问题和篇章分别进行编码

  • 以特征表示向量序列{xi}为输入
  • 分别对问题和篇章使用双向循环神经网络(LSTM/GRU)表示

这里写图片描述

  • 多个状态向量代替一个状态向量来表示句子
  • 对于每个输入向量可以关注不同的状态向量

利用注意力机制融合问题和篇章信息
- Match-LSTM (Wang and Jiang,2016)
- 双向注意力机制:BiDAF(Seo et al.,2015)和DCN(Xiong et al.2016)
- 自注意力(self-attention):R-Net(Wang et al., 2017)

3. 多篇章阅读理解模型

一个问题对应多个篇章

  • 在答案抽取层以前每个篇章分别处理
  • 之后将隐层表示连接在一起放入指针网络,以选择一个答案片段
  • 利用辅助任务预测答案是否从当前篇章产生(Tan et al., 2018)
  • 分别产生答案再相互验证(Wang et al.,2018)

目标函数和最小风险训练

最大似然估计
这里写图片描述
最小风险训练
这里写图片描述

4. 指针网络(Pointer network)和篇章片段抽取

  • 大部分工作将阅读理解任务建模成篇章片段抽取问题–问题的答案对应篇章内的一个片段
  • 指针网络将注意力机制的权重分数作为输出,表示在状态向量序列的一个概率分布
  • 利用两步的指针网络,以匹配层的结果作为状态向量序列,预测答案片段在篇章中的开始和结束位置
    这里写图片描述

猜你喜欢

转载自blog.csdn.net/xundh/article/details/81006911