第9章 地理信息系统案例分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/myvanguard/article/details/86522632

兴趣点也叫做POI(Point of Interest),每个POI包含名称、地址、类别、经度、纬度等信息。

从新闻中发现更新信息的流程是:首先抓取新闻,然后提取其中的标题和正文等信息,再从中提取POI信息,最后排重后输出。

9.1新闻提取

需要从任意新闻网页中提取标题和正文等信息。

9.2POI信息提取

在城市发展建设过程中,地图数据信息的变更不可避免,这就需要及时更新数据。监测新闻等网络媒体中涉及地址变更的信息。通过爬虫抓取最新的和地图数据信息相关的变更信息。通过信息提取技术形成变化的地址信息列表。

为了降低实现的复杂度,基于分而治之的思想,把信息提取分成5个阶段的管线:
·中文分词;·词性标注;·名字发现;
·句法分析,一般限于名词和动词短语识别,一个句法树的例子如图9-1所示;
·语义解释,一般基于模式匹配。

9.2.1提取主体

把主体看成是短语。传统的方法是首先进行分词和标注,然后再做短语识别。如果有多个可能的主体,则按照每个主体在文本中出现的次数,把出现次数多的作为主体。但有些真正的主体出现次数较少,这时候怎么办?规则匹配出来的时候可以设置不同的权计,然后加权计算主体。

9.2.2提取地区

地名有国外地名和国内地名。如果不需要关注国外地名,则可以把国外地名作为停用词去掉。和地址相关的类型有:直辖市(Municipality)、省(Province)、市(City)、区(County)、镇(Town)、街(Street)。下面的代码根据搜集到的地名数组返回一个最重要的地名。

9.2.3指代消解

有的描述对象只在内容中出现了一次或少数几次,在内容中更多的地方以代词出现。这时候,需要用指代消解(Coreference Resolution)来准确地处理这样的描述对象。

指代消解对词性标注和语法分析有一定的依赖,判断是否消解不是根据这个词出现了几次,而是要先找到指示词“这座桥”。用选出的先行词(antecedent)替换指代词,即进行指代消解。
具体实现上首先找出指示词的候选先行词,然后计算候选的先行词和指示词的一致性。

本章介绍了从新闻中发现POI更新信息的方法和实现。首先对新闻分词,然后分别从标题和内容中发现POI相关信息,最后整理成结构化的形式输出。

猜你喜欢

转载自blog.csdn.net/myvanguard/article/details/86522632
今日推荐