关系抽取
1. 评测背景:知识是机器语言理解与交互的重要基础
- 机器语言理解与交互是人工智能的基本挑战,五大任务助力 (机器阅读理解、面向推荐的对话、语义解析、关系抽取、事件抽取)
- 知识是机器语言理解与交互的重要基础
- 关系抽取是知识获取的重要方式
知识图谱
2. 评测任务:schema约束下的SPO抽取任务
任务描述:
- 抽取输入句子中所有符合schema约束的SPO三元组
- 输入:预定义schema& 句子
- 输出:SPO三元组
任务特色:挑战关系抽取模型较难解决的问题 - 重叠关系抽取问题
- 复杂关系抽取问题
3. 评测数据集 DuIE2.0 面向真实业务场景的schema
数据生成
- DuIE1.0 根据query log 统计筛选
- 知识库:百度知识图谱数据
- 语料:百度百科+百度信息流
候选生成 - 基础候选:SPO粒度远监督
- 候选扩召:schema粒度远监督+并列结构pattern
众测标注: - 训练集&开发集 :单副本判断题标注+单论review
- 测试集:双副本填空题标注+两轮review
- DuIE2.0,48个关系类型,5个复杂关系类型
4. 2019基线系统:基于BI-LSTM的pipeline模型
模型结构
- Pipeline结构:先关系分类,在进行s/o 标注
- Embedding层:词语,词性,位置
- 编码层:Bi-LSTM
- 关系分类输出层:多标签sigmoid
存在问题 - Pipeline没有利用关系分类,S/O 标注两个子任务之间的联系,且存在错误传递,效果不易优化
- 采用Bi-LSTM作为编码器,不易并行处理,训练/预测效率低,且特征抽取效果不如预训练模型
- s/o标注子任务采用简单的BIO 标注,不易直接处理复杂关系的问题。
5。2020的基线系统:基于ERNIE的E2E标注模型
- 一步解决关系重叠关系的抽取问题
- BI-LSTM编码器->ERNIE预训练模型
- 简单BIO标注策略->新型BIO标注策略
事件抽取
事件:在特定时空下(时间,空间),由一个或多个角色(事件主体)主题开展的一系列活动
事件抽取Event Extraction,EE :
事件要素的结构化抽取,具体的,是从非结构化的自然语言文本中识别事件及其类型,抽取其事件的元素的技术
事件抽取常用Pipeline
- 1⃣️触发词识别
- 2⃣️事件类型识别
- 3⃣️论元抽取
句子:2017年10月31日,宋仲基,宋慧乔在首尔举行婚礼
事件类型:结婚 触发词:举行婚礼 时间:地点:男主:女主:
研究价值: - 更具研究价值,更加复杂的应用场景
- 应用:信息分发,舆情分析,金融事件分析,对话系统
事件抽取的主流方法:
- Pipeline-based (trigger+arg)
- Joint-Based (trigger+arg)同时联合出发词和论元,相互验证
事件抽取的评测任务:
任务描述:通过给定目标事件类型和角色类型集合句子,识别句中的目标事件,并根据论元角色集合抽取事件所对应的论元
- 输入:包含事件信息的一个或多个连续的句子
- 输出: 属于预先定义的事件类型,类型的论元结果
数据集特点: - 一个句子包括多触发词
- 多值论元角色
- 面向真实应用场景构建
事件schema 定义 - 65个事件类型+121论元角色
评估方法 - F1=(2PR)/(P+R)
Baseline 模型
- 基于序列标注的触发词抽取模型
- 基于序列标注论元抽取模型
[1]https://mp.weixin.qq.com/s?__biz=MzUxNzk5MTU3OQ==&mid=100002954&idx=1&sn=6ccf514c3649b58d7bd96eb1de29d1e6&scene=19#wechat_redirect