NLP之开放式信息抽取

从广义上讲,信息抽取处理的对象可以是文本、图像、语音和视频等多种媒体,但随着文本信息抽取研究的快速发展,信息抽取往往被用来专指文本信息抽取(text information extraction)。

文本信息抽取指的是这样一类文本处理技术,它从自然语言文本中自动抽取指定类型的实体(entity)、关系(relation)、事件(event)等事实信息,并形成结构化数据输出。例如,从关于自然灾害的新闻报道中抽取事件的信息一般包括如下几个主要方面:灾害类型、时间、地点、人员伤亡情况、经济损失等。总体来说,文本信息抽取主要包括三方面的内涵:①自动处理非结构化的自然语言文本;②选择性抽取文本中指定的信息;③就抽取的信息形成结构化数据表示。

与自动文摘相比,信息抽取一般是有目的地从文本中寻找所要的信息,并将找到的信息转化成结构化格式表示,一般采用类似框架的表示形式。因此,系统不需要生成自然语言的句子。框架表示中包含哪些属性,需要系统填充哪些槽,都是事先设定好的。

传统的信息抽取技术

MUC会议中评测任务有5个:①场景模板填充(scenario template, ST):定义了描述场景的模板及槽填充规范;②命名实体(named entity, NE)识别:识别出文本中出现的专有名称和有意义的数量短语,并加以归类;③共指(co-reference, CR)关系确定:识别出给定文本中的参照表达(referring expressions),并确定这些表达之间的共指关系;④模板元素(template element, TE)填充:类似于人名和组织机构名识别,但是,要求系统必须识别出实体的描述和名字,如果一个实体在文本中被提到了多次,使用了几种可能的描述和不同的名字形式,要求系统都要把它们识别出来,一个文本中的每个实体只有一个模板元素[Grishman and Sundheim, 1996];⑤模板关系(template relation, TR):确定实体之间与特定领域无关的关系。

传统的信息抽取系统在实现方法上,与其他自然语言处理问题的研究方法类似,也可以笼统地划分为基于分析的方法和基于机器学习的统计方法两种。

不管系统采用什么样的实现方法,必须解决的关键问题应该包括如下几个方面:①命名实体识别;②句法分析,尤其是短语或语块分析等浅层句法分析和依存句法分析;③共指分析和歧义消解;④实体关系识别:确定文本中两个实体之间在某一时间范围内所存在的关系;⑤事件识别:识别多个实体之间的存在关系,包括经历一段时间之后实体状态以及实体之间关系的改变。另外,语篇的分析,包括语篇的结构分析和逻辑分析也是不可忽视的一个问题。当然,对于汉语文本而言,自动分词问题始终是一个无法绕过的拦路虎。

开放式信息抽取

开放式信息抽取(open information extraction, OIE)技术,目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。

开放式信息抽取的特点在于:①文本领域开放:处理的文本领域不再限定于规范的新闻文本或者某一领域文本,而是不限定领域的网络文本;②语义单元类型开放:所抽取的语义单元不限定类型,而是自动地从网络中挖掘语义单元的类型,如实体类型、关
系类型和事件类型等;③以“抽取”替代“识别”:相对于传统的信息抽取,开放式文本信息抽取不再拘泥于从文本中精确识别目标信息的每次出现,而是充分利用网络数据海量、冗余的特性,以抽取的方式构建面向实际应用的多层次语义单元集合。在这一过程中,不仅需要考虑文本特征,同时需要综合考虑网页结构特征和用户行为特征等。

1.开放式实体抽取

传统的命名实体识别任务主要是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体,或针对一些特定领域特定类型的命名实体(如产品名称、基因名称等)进行研究。开放式实体抽取的任务是在给出特定语义类的若干实体(称为“种子”)的情况下,找出该语义类包含的其他实体,其中特定语义类的标签可能是显式,也可能是隐式给出的。如给出“中国、美国、俄罗斯”这三个实体,要求找出“国家”这个语义类的其他实体诸如“德国、法国、日本”等。从方式上,传统意义上的实体识别关注的是从文本中识别出实体字符串位置以及所属类别(如人名、地名、组织机构名等),侧重于识别,而开放式实体抽取关注的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表,侧重于抽取。相对而言,抽取比识别在任务上更加底层,实体抽取的结果可以作为列表支撑实体的识别。

开放式实体抽取的目标是根据用户输入的种子词从网络中抽取出同类型的实体,存在初始信息少、语义类别难以确定和缺乏公认的评测标准及实例集等困难。现有的开放式实体抽取方法的基本假设是:“同类实体在网络上具有相似的网页结构或者相似的上下文特征”。因此,在抽取过程中首先要找到这样的网页或文本,然后从中抽取未知的同类型实体。抽取过程通常包括两个步骤:①候选实体获取;②候选实体置信度计算和排序。具体实现时通常从种子实体出发,通过分析种子实体在语料中的上下文特征得到模板,根据模板得到更多候选实体,选取置信度高的候选实体作为新种子进行迭代,满足一定条件后停止迭代,返回历次置信度高的候选实体作为结果输出。

2.实体消歧

实体歧义是指一个实体的指称项可能对应多个真实世界的实体(或称实体概念)。例如,“华盛顿”可能指美国开国元勋,也可能指美国首都特区或者华盛顿州。与词义消歧任务相比,实体消歧(entity disambiguation)面临更多的困难,如消歧目标不明确、指称项可能存在多样性(name variation)和指称项存在歧义性(name ambiguity)等。指称项多样性是指一个实体概念可以用多种命名性指称项指称,如全称、别称、简称、拼写错误、多语言名称等。指称项歧义性是指一个命名性指称项在不同的上下文中可以指称不同的实体概念,如“迈克尔·乔丹”可能指篮球明星Michael Jeffrey Jordan,也可能是University of California, Berkeley的教授Michael I. Jordan。

对于单语言的实体消歧问题,目前采用的主要方法如下。
(1)实体聚类消歧法:对每一个实体指称项抽取其上下文特征包括词、实体等),并将其表示成特征向量;然后计算实体指称项之间的相似度;计算基于指称项之间的相似度时,可采用一定聚类算法将其聚类,将每个类看作一个实体概念。这种方法的核心任务是计算实体指称项之间的相似度,传统的方法是利用上下文的词信息建立词袋模型(bag-of-words, BOW),从而进行实体指称项相似度计算。针对人名消歧,采用基于图的算法,利用社会化关系的传递性考虑隐藏的实体关系知识,也是常用的策略。很多研究者也利用知识资源,如Wikipedia、 Web上的链接信息、命名实体的同现信息、领域特定语料库等,来提升实体消歧的效果。

2)实体链接消歧法:实体链接(entity linking)也称实体分辨或实体解析(entity resolution),或记录链接(record linkage)。基于实体链接消歧法的目的是解决基于聚类的实体消歧法不能显式地给出实体语义信息的问题,其基本任务是:给定一个实体指称项,将其链接到知识库中的实体概念上。

实体链接消歧法主要包括两步:①候选实体的发现:给定实体指称项,链接系统根据知识、规则等信息尽可能地找到实体指称项的所有候选实体;②候选实体的链接:链接系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体。

候选实体的发现可以通过挖掘Wikipedia等网络百科得到,如利用Wikipedia中锚文本的超链接关系、消歧页面(disambiguation page)和重定向页面(redirection page)获得候选实体,也可以通过挖掘待消歧实体指称项的上下文文本得到,这种方法主要用于发现缩略语的候选实体。

实体链接的核心任务仍是计算实体指称项和候选实体之间的相似度,选择相似度最大的候选实体作为链接的目标实体。对于单一实体链接的相似度计算,只考虑实体指称项与目标实体间的语义相似度,如将实体指称项的上下文与候选实体的上下文分别表示成BOW向量形式,通过计算向量间的余弦值确定指称项与候选实体的相似度。对于协同实体链接,可以利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束,从而更好地对于文本内的多个实体进行消歧。如考虑不同实体的类别信息,利用实体类别重合度计算目标实体的语义相似度;或采用Pair-Wise策略,将多个目标指称项分解为多个目标对,计算每个对之间的语义关联度,然后累加起来作为文本内部多个实体之间的语义一致性度量;或者利用基于图的方法,充分考虑文本内部目标实体之间的全局语义一致性、指称项与目标实体之间的关联度。

3.开放式实体关系抽取

实体关系抽取是指确定实体之间是否存在某种关系。如对于句子“外交部发言人洪磊昨天就钓鱼岛问题表明中方立场”,实体关系抽取模块需要识别出句子中的实体“外交部”和“洪磊”之间存在“雇佣”类别的关系。传统的实体关系抽取大都给定关系类别,要求在限定语料中判别两个实体之间是否存在给定关系,可以看作一个模板填充或者槽填充过程。

在处理海量网络文本资源时,不同的实体类型具有不同的关系(或属性)。传统的实体关系抽取方法受到人工定义关系类型的限制和训练语料的制约,难以适应网络文本快速增长和变化的需要。因此,开放式实体关系抽取的目标就是要突破封闭的关系类型限制和训练语料的约束,从海量的网络文本中抽取实体关系。实体关系通常采用采用三元组表示:(Arg1,Pred,Arg2),其中,Arg1表示实体,Arg2表示实体关系值,通常也是实体,Pred表示关系名称,通常为动词、名词或者名词短语。例如,对于句子“国务院总理温家宝在人民大会堂做了政府工作报告”,可以抽出如下三元组:(温家宝,在,人民大会堂)、(温家宝,做,政府工作报告)。

开放式实体关系抽取的主要任务是抽取实体关系类型和实体关系值。面对开放领域,如何针对每一领域内实体类型确定其关系类别,是非常困难的问题,这种关系不仅包含概念之间的上下位关系、部分与整体的关系、属主关系等通用关系,也包含不同类别实体概念所特有的语义关系,如“作家”的以下属性关系:年龄、作品体裁、代表作等。Web上存在着大量结构化知识源,其中蕴含着大量易于获取的实体语义关系类别(如维基百科的Infobox),挖掘和利用Web知识源中的语义知识,并充分利用数据冗余性进行知识验证是可行的解决方案。对于实体关系值抽取,如何利用结构化网络知识与非结构化网络知识的冗余性,自动构建训练语料,同时建立自适应的关系抽取算法,是目前面临的另一难题。

从传统给定类别的关系抽取到开放式的关系抽取,是研究思路的一个大转变。目前还面临很多实际困难,例如,如何处理含大量不规范数据格式和噪声,且质量参差不齐的真实网络数据,如何解决单纯利用Infobox抽取关系名覆盖率不高的问题等。

综上所述,随着互联网的迅速发展信息抽取技术在研究内容上已经从面向限定领域、限定类型的信息抽取逐渐发展为开放领域、开放类别的信息抽取,而在技术手段上,从早期基于人工模板的抽取方法,到基于语料库的统计方法,再到目前Web2.0时代从大规模用户生成内容(User Generated Content,如网络百科、社区问答等)进行知识挖掘,进而融合知识和统计方法进行开放式信息抽取,技术手段越来越奏效。

猜你喜欢

转载自blog.csdn.net/miner_zhu/article/details/82864096