关系抽取和事件抽取的一些任务特色

关系抽取

1. 评测背景:知识是机器语言理解与交互的重要基础

  • 机器语言理解与交互是人工智能的基本挑战,五大任务助力 (机器阅读理解、面向推荐的对话、语义解析、关系抽取、事件抽取)
  • 知识是机器语言理解与交互的重要基础
  • 关系抽取是知识获取的重要方式
    知识图谱

2. 评测任务:schema约束下的SPO抽取任务

任务描述:

  • 抽取输入句子中所有符合schema约束的SPO三元组
  • 输入:预定义schema& 句子
  • 输出:SPO三元组
    任务特色:挑战关系抽取模型较难解决的问题
  • 重叠关系抽取问题
  • 复杂关系抽取问题

3. 评测数据集 DuIE2.0 面向真实业务场景的schema

数据生成

  • DuIE1.0 根据query log 统计筛选
  • 知识库:百度知识图谱数据
  • 语料:百度百科+百度信息流
    候选生成
  • 基础候选:SPO粒度远监督
  • 候选扩召:schema粒度远监督+并列结构pattern
    众测标注:
  • 训练集&开发集 :单副本判断题标注+单论review
  • 测试集:双副本填空题标注+两轮review
  • DuIE2.0,48个关系类型,5个复杂关系类型

4. 2019基线系统:基于BI-LSTM的pipeline模型

模型结构

  • Pipeline结构:先关系分类,在进行s/o 标注
  • Embedding层:词语,词性,位置
  • 编码层:Bi-LSTM
  • 关系分类输出层:多标签sigmoid
    存在问题
  • Pipeline没有利用关系分类,S/O 标注两个子任务之间的联系,且存在错误传递,效果不易优化
  • 采用Bi-LSTM作为编码器,不易并行处理,训练/预测效率低,且特征抽取效果不如预训练模型
  • s/o标注子任务采用简单的BIO 标注,不易直接处理复杂关系的问题。

5。2020的基线系统:基于ERNIE的E2E标注模型

  • 一步解决关系重叠关系的抽取问题
  • BI-LSTM编码器->ERNIE预训练模型
  • 简单BIO标注策略->新型BIO标注策略

事件抽取

事件:在特定时空下(时间,空间),由一个或多个角色(事件主体)主题开展的一系列活动

事件抽取Event Extraction,EE :

事件要素的结构化抽取,具体的,是从非结构化的自然语言文本中识别事件及其类型,抽取其事件的元素的技术
事件抽取常用Pipeline

  • 1⃣️触发词识别
  • 2⃣️事件类型识别
  • 3⃣️论元抽取
    句子:2017年10月31日,宋仲基,宋慧乔在首尔举行婚礼
    事件类型:结婚 触发词:举行婚礼 时间:地点:男主:女主:
    研究价值:
  • 更具研究价值,更加复杂的应用场景
  • 应用:信息分发,舆情分析,金融事件分析,对话系统

事件抽取的主流方法:

  • Pipeline-based (trigger+arg)
  • Joint-Based (trigger+arg)同时联合出发词和论元,相互验证

事件抽取的评测任务:

任务描述:通过给定目标事件类型和角色类型集合句子,识别句中的目标事件,并根据论元角色集合抽取事件所对应的论元

  • 输入:包含事件信息的一个或多个连续的句子
  • 输出: 属于预先定义的事件类型,类型的论元结果
    数据集特点:
  • 一个句子包括多触发词
  • 多值论元角色
  • 面向真实应用场景构建
    事件schema 定义
  • 65个事件类型+121论元角色
    评估方法
  • F1=(2PR)/(P+R)

Baseline 模型

  • 基于序列标注的触发词抽取模型
  • 基于序列标注论元抽取模型
    [1]https://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ==&mid=100002954&idx=1&sn=6ccf514c3649b58d7bd96eb1de29d1e6&scene=19#wechat_redirect

猜你喜欢

转载自blog.csdn.net/weixin_42462804/article/details/106382467