事件抽取,是这样一种任务,它要求我们用人工或者自动的方法,从半结构化、非结构化数据中,识别一个与我们的目标相关的事件的重要元素识别出来。也可以说,事件抽取是针对特定的文档,从中预测事件描述、事件触发词、事件对应的要素以及对应要素的角色。
事件抽取相关术语
序号 | 概念名称 | 概念描述 |
1 | 实体(Entity) | 语义对象。比如人名、机构、组织都是实体 |
2 | 事件描述(Event mentions) | 描述事件信息的短语或者句子,整个文本 |
3 | 事件类型(Event type) | 是事件的标签,通常是事件触发词的类型 |
4 | 事件触发词(Event trigger) | 标志着事件的开始,事件发生的核心词,一般是动词或者动名词 |
5 | 事件元素(Event argument) | 用来描述一个事件的时间、地点、人物 |
6 | 元素角色(Argument role) | 事件要素在事件进行过程中的作用 |
事件抽取例子
1992年10月3日奥巴马与米歇尔在三一联合基督教堂结婚
事件触发词 | 结婚 | |
事件元素 | 角色=配偶 | 奥巴马 |
角色=配偶 | 米歇尔 | |
角色=时间 | 1992年10月3日 | |
角色=地点 | 三一联合基督教堂 |
事件抽取类型
事件抽取任务总体可以分为两个大类:元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。
事件抽取意义
事件抽取的相关研究,有助于我们深入了解机器理解数据、理解世界的机制,事件抽取技术也可以帮助我们解决很多现实问题,比如海量信息的自动处理。
下面展示一个事件抽取的算例
对于一则火灾事故的新闻,我们所关注的是:事故发生时间;事故发生地点;事故伤亡情况;事故发生原因
事件抽取所要做的是:输入一则火灾新闻,输出事故地点,事故时间,事故伤亡,事故原因等
数据集新闻如下:
8月3日,俄罗斯莫斯科州的一家大型线上零售商的仓库发生火灾。此前曾有报道称,大火造成1人死亡,13人受伤,但经紧急情况部门4日早最终确认,火灾中共有12人受伤,其中2人入院治疗。目前起火原因仍在调查中。人为纵火、电气设备故障和不安全的焊接操作是主要调查方向。
源码如下:
#导入包
import re
#事故原因
def pattern_cause(data):
"data.type: [文字]"
data = str(data)
patterns = []
key_words = ['起火', '事故', '火灾']
pattern = re.compile('.*?(?:{0})原因(.*?)[,.?:;!,。?:;!]'.format('|'.join(key_words)))
patterns.append(pattern)
for c in patterns:
print('事故原因:',c.search(data).group(1))
#事故伤亡
def pattern_lose(data):
"data.type: [文字]"
data = str(data)
patterns = []
key_words = ['伤亡', '损失']
pattern = re.compile('.*?(未造成.*?(?:{0}))[,.?:;!,。?:;]'.format('|'.join(key_words)))
patterns.append(pattern)
patterns.append(re.compile('(\d+人死亡)'))
patterns.append(re.compile('(\d+人身亡)'))
patterns.append(re.compile('(\d+人受伤)'))
patterns.append(re.compile('(\d+人烧伤)'))
patterns.append(re.compile('(\d+人坠楼身亡)'))
patterns.append(re.compile('(\d+人遇难)'))
for i in patterns:
jieguo = i.search(data)
if not jieguo:
pass
else:
print('事故伤亡:',jieguo.group(1))
#事故时间:
def pattern_time(data):
data = ''.join(test_data)# data.type :str
PATTERN = r"([0-9零一二两三四五六七八九十]+年)?([0-9一二两三四五六七八九十]+月)?([0-9一二两三四五六七八九十]+[号日])?([上中下午晚早]+)?([0-9零一二两三四五六七八九十百]+[点:\.时])?([0-9零一二三四五六七八九十百]+分?)?([0-9零一二三四五六七八九十百]+秒)?"
pattern = re.compile(PATTERN)
m = pattern.search(data)
# "19年1月14日18时19分39秒上午"
m1 = pattern.search("上午")
year=m.group(1) # 年
month=m.group(2) # 月
day=m.group(3) # 日
am=m.group(4) # 上午,中午,下午,早中晚
hour=m.group(5) # 时
minutes=m.group(6) # 分
seconds=m.group(7) # 秒
print('事故时间: ',year,month,day,am,hour,minutes,seconds)
#事件地点
def pattern_address(data):
data = ''.join(data)#转换格式
p_string = data.split(',')#分句
address=[]
for line in p_string:
line = str(line)
PATTERN1 = r'([\u4e00-\u9fa5]{2,5}?(?:省|自治区|市)){0,1}([\u4e00-\u9fa5]{2,7}?(?:区|县|州)){0,1}([\u4e00-\u9fa5]{2,7}?(?:镇)){0,1}([\u4e00-\u9fa5]{2,7}?(?:村|街|街道)){0,1}([\d]{1,3}?(号)){0,1}'
# \u4e00-\u9fa5 匹配任何中文
# {2,5} 匹配2到5次
# ? 前面可不匹配
# (?:pattern) 如industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。意思就是说括号里面的内容是一个整体是以y或者ies结尾的单词
pattern = re.compile(PATTERN1)
p1 = ''
p2 = ''
p3 = ''
p4 = ''
p5 = ''
p6 = ''
m = pattern.search(line)
if not m:
continue
else:
address.append(m.group(0))
#print('事件地点:',m.group(0))
print('事件地点:',set(address))
#事故摘要
def shijian(data):
import jieba
text=''.join(data)
text = re.sub(r'[[0-9]*]', ' ', text) # 去除类似[1],[2]
text = re.sub(r'\s+', ' ', text) # 用单个空格替换了所有额外的空格
sentences = re.split('(。|!|\!|\.|?|\?)', text) # 分句
# 加载停用词
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r',encoding='utf-8').readlines()]
return stopwords
stopwords = stopwordslist("data/停用词.txt")
# 词频
word2count = {} # line 1
for word in jieba.cut(text): # 对整个文本分词
if word not in stopwords:
if word not in word2count.keys():
word2count[word] = 1
else:
word2count[word] += 1
for key in word2count.keys():
word2count[key] = word2count[key] / max(word2count.values())
# 计算句子得分
sent2score = {}
for sentence in sentences:
for word in jieba.cut(sentence):
if word in word2count.keys():
if len(sentence) < 300:
if sentence not in sent2score.keys():
sent2score[sentence] = word2count[word]
else:
sent2score[sentence] += word2count[word]
# 字典排序
def dic_order_value_and_get_key(dicts, count):
# by hellojesson
# 字典根据value排序,并且获取value排名前几的key
final_result = []
# 先对字典排序
sorted_dic = sorted([(k, v) for k, v in dicts.items()], reverse=True)
tmp_set = set() # 定义集合 会去重元素 --此处存在一个问题,成绩相同的会忽略,有待改进
for item in sorted_dic:
tmp_set.add(item[1])
for list_item in sorted(tmp_set, reverse=True)[:count]:
for dic_item in sorted_dic:
if dic_item[1] == list_item:
final_result.append(dic_item[0])
return final_result
# 摘要输出
final_resul = dic_order_value_and_get_key(sent2score, 5)
print('事件主要意思:',final_resul)
#主函数
def main(data):
pattern_cause(data)
pattern_lose(data)
pattern_time(data)
pattern_address(data)
shijian(data)
if __name__ =='__main__':
#读取数据
with open('D:\Desktop\zj\data\新闻1.txt', 'r', encoding='utf-8') as f:
test_data = f.readlines()
main(test_data)
运行结果:
这是一个基于正则的算例,能够将非结构化的新闻文本识别出重要的事件元素
参考文章:https://blog.csdn.net/kobeyu652453/article/details/106985033