网页内容抽取

  信息抽取的中心是包装器(Wraper),包装器是一种软件过程,使用已经定义好的信息抽取规则,将网络爬虫搜集到的web网页上的信息数据抽取出来,转化为用特定格式描述的信息。包装器将特定的网站,紧密地与抽取的网页结构和标记语言联系起来。包装器的主要特点是能从不相关的文本中识别所要抽取的信息。缺点是包装器一般是按照一定的规则或模式来抽取数据,但是网页结构是复杂的和不规范的,一个包装器一般只针对一个信息源,如果信息来自多个信息源,就需要很多包装器,使包装器的生成和维护成为复杂工作。
    网页内容解析方法主要有以下几种:
(1)基于统计的方法。将HTML文件把网页表示成一棵树,利用树中节点包含的中文字符数选择包含正文信息的节点。
(2)基于DOM结构的方法,找出网页html文档中的具有意义的特定标签,利用标签将文档表示成DOM树结构,枸橘特定标签来提取树中有效节点的数据。
(3)基于网页分块的方法。当web网页展示时,空间线索能帮助用户下意识的将web网页划分成几个语义块。主要是利用标签的分布规律和标签间的关系进行分块。
(4)基于标记窗的方法。标签窗是HTML格式的网页中出现在<title>之后的显示内容为空的标签对。可以处理网页正文放在多个<td>的情况,同时解决了非table结构网页正文的提取。
(5)基于模板的方法(包装器)。是一种传统方法。使用包装器来抽取网页中感兴趣的数据。目前基于NLP的信息检索应用要求对每一个Web领域编写专门的包装器。

猜你喜欢

转载自y-x.iteye.com/blog/1333339
今日推荐