Context Extraction from HTML Document HTML文档的内容提取

  网页内容提取的重要性不仅是内容的数量,还包括其他重要的方面,如:
(1)浏览任何网站:模式识别系统使用文档分析技术可以在很小的显示设备上展示网页,通过提取和总结网页内容。
(2)高速接入:网页的需要很快的更新
(3)带宽的使用:网页的更新应该降低网络拥堵
(4)简单配置:任何方式的提取对于SI和用户在已经存在的系统上是容易配置的
(5)快速开发:
(6)可移植
  对网页有效内容抽取在无线网络方面很重要。有很多方法可以实现内容抽取,一种方法是将HTML按照它的结构分成区域。一旦区域定义了,基于内容分析的属性也可以得出。但是从相互独立的区域提取内容不是完全的解决方案。这些区域含有相关内容,同时它可能在显示区域内容时没有考虑到这一点。这个问题可以通过下面三种方法解决。
(1)邻域分析:这种方法基于临近位置进行关系分析。这些区域的原始顺序在某些情况下可以作为指示建立很强的关系。
(2)内容分类:从相互独立的区域中提取的内容可以被分解为不同的种类,使用临近位置内容的分类可以作为建立不同区域间逻辑地图的工具。
(3)第三种基于包含内容语法和矢量模型的使用自然语言处理技术。这种方法使用知识模型和信息检索技术来确定不同区域块之间的关系。

当不同区域块之间的关系确定之后,可以将内容建立一个意义明确和有效的模型,能够满足显示屏较小的需求。

下面为需要实现的过程:
(1)结构分析:分析每一个网页的结构;
(2)分解:基于每个提取的网页结构分解文档;
(3)内容分析:对半结构化文档进行内容分析得到当前分解的结构的一个摘要;
(4)DOC内容表:将所有分解文档的摘要拼接在一起作为整个文档的摘要,保存为一条Table of Content信息。
(5)TOC排序:TOC的顺序取决于分解文档的原始顺序,但是这种原始顺序经常被误认为最用意义或者最重要的信息。所以,分析每个分解文档块的内容,并且基于它们之间相互重要性重新排序,并显示出来。

这种方法基于网页结构分析提取网页内容,基于不同区域块的重要性和逻辑关系,对文档分类可以得到文档中有效的内容。这种文档分析的方法可以将内容连接为有意义的、可以理解的,并且可用的代表内容。

猜你喜欢

转载自y-x.iteye.com/blog/1337385
今日推荐