一个事件由事件触发词和描述事件结构的元素构成。那么,事件抽取任务就是:从一篇文本中抽取出事件句,再从事件句中抽取出事件元素。
事件句定义
要从一篇文本中抽取出事件句,首先要知道事件句是什么。事件句,也称主题句,用来描述一个事件信息或者文章主题,能够代表文章的主旨。
下面列举了几个事件类型以及事件句
事件类型 | 事件句 |
重大合同 | 002693双成药业公司于2014年9月5日与上海浦东发展银行股份有限公司签订《利多多公司理财产品合同》,使用闲置募集资金和超募资金人民币壹亿元购买理财产品。 |
重大会议 | 2015年的10月26日,中共十八届五中全会在北京召开,“十三五”规划是这次会议讨论的核心议题,勾画出未来五年中国经济社会发展的蓝图。 |
重大政策 | 近日,国土资源部下发了《关于发布<石油天然气工程项目用地控制指标>的通知》,为准确理解和把握政策,规范开展用地管理工作,我们对国14号文件的发布背景、起草过程、主要内容等作了解读。 |
事件句抽取方法
以下列举了几种常用的事件句抽取方法,并围绕前四个方法进行展开讲解
基于事件触发词进行事件句识别 |
基于事件触发词加权的事件句抽取 |
基于事件多要素规则的事件句抽取 |
融合多特征,如:词语的个数、文本句子长度、段落位置、停用词频率等特征进行事件句抽取 |
基于主题模型来进行事件句识别 |
基于特征如最大熵分类器的事件句识别 |
基于事件触发词进行事件句识别
传统的事件句抽取方法将含有触发词的句子称为候选事件,触发词直接决定候选事件及候选类别。我们要提前把事件类型和收集到的事件触发词进行映射,构成 “触发词-事件类别”二元对照表。
例{“被任命”:“人事变动事件”,“收购”:“并购重组事件”}
候选事件的抽取过程如下:
首先对给定的文章进行分句和分词等预处理;然后分析每一个句子,查看组成它的词语是否在“触发词-事件类别”对照表中。如果在一个句子中能够找到触发词,这个句子可被作为候选事件,触发词所对应的事件类别即为候选事件类别。
这样可以得到大量的候选事件及它可能对应的候选类别,不过候选事件中也会存在不符合对应候选类别的事件。
触发词:表示事件发生的核心词,多为动词或名词;一般以动词性词语为主,如“收购”、“合并”
触发词构建:给定事件类型,我们会首先根据人的经验或者真实语料中的描述,筛选若干种子触发词。然后由种子触发词扩展其它触发词
触发词扩充:
- 基于外部同义词的扩充
- 例:“举行”,“举办”,这是一对同义词,根据一个词可以扩展出其他的同义词,这样可以尽可能多的覆盖某个事件类型的触发词。
- 基于预训练词向量的扩充
- 例:深度学习模型word2vec,是一个经典的预训练词向量,它可将相似语义的词语映射到向量空间中的相近位置,相近位置的词语相似度很大,同样可以扩展触发词。
基于事件触发词加权的事件句抽取
上面说到基于事件触发词的事件句抽取得到了大量的候选事件及候选类别,这其中存在大量不符合对应候选类别的事件,需要利用其他信息进行增强。以金融领域事件句识别为例,可以结合公司名信息、动词信息、句子位置信息、句子与标题相似度多个特征进行加权评分。
- 公司名信息
- 公司名是金融事件的重要主体,我们把公司名作为事件句的一个特征,特征权重是句子包含的公司名数量。
- 动词信息
- 动词一般表示一个事件的核心,以金融领域为例,如果一个句子中包含金融领域动词,则是事件句的可能性更高,特征权重为1,否则为0。
- 句子位置信息
- 我们知道,一般来说,一个文本中信息含量高的句子通常出现在前几句,所以把句子位置信息作为一个特征,特征权重是句子所在位置的倒数,即出现在越前面的句子权重越高。
- 句子与标题相似度
- 文本的标题一般来说含有较多的信息,所以把句子与标题之间的相似度作为一个特征。特征权重是句子与标题之间的动词或名词交集。
基于事件多要素规则的事件句抽取
上面介绍了基于触发词和触发词加权的事件句抽取,但仅仅依靠触发词是无法准确识别事件句的。我们可以结合事件多要素对事件句的识别进一步增强。
如果一个句子中包含了触发词以及其他的论元,那么这个句子大概率也是一个事件句,而且论元个数越多,成为事件句的概率就越大。
所谓论元,就是事件的参与者。
以金融领域为例,对一个并购事件,所对应的事件要素包括收购方、被收购方、并购时间、并购金额、并购股权等多个论元。
融合多特征的事件句分类抽取
文本中的句子可以分为两个大类:含有事件句子的实例集合和含有非事件句子的实例集合。融合多特征的事件句分类抽取可以消除文本中大量的非事件的句子。
在这里,选取了句子中词语的个数、句子的长度、段落位置、停用词频率等特征。
- 句子中词语的个数
- 一个句子大于20个词更有可能为事件句
- 句子的长度
- 句子长度大于50,更有可能为事件句
- 段落位置
- 位于句首和句尾更有可能为事件句
- 停用词频率
- 停用词频率高于0.5更有可能为事件句
总结
本文围绕事件句识别,从事件句定义和事件句抽取两个方面进行讲解,重点介绍了常用的方法:基于事件触发词识别事件句。
参考文献
- 陈贺.财经领域事件抽取技术的研究与应用.2017.北京理工大学
- 李江龙等.金融领域的事件句抽取.计算机应用研究.34.10(2017)
- 许红磊等.自动识别事件类别的中文事件抽取技术研究.心智与计算(2010):11
- https://blog.csdn.net/muumian123/article/details/81746583