6-15

单独的这样来说，时间过得真的是快，6月份已经开始过了一半的时间了，我想说的事情就是这件事情，自己的学习进度变得十分的缓慢，自己在爬虫方面耗费了大量的时间自己却没有做出一些比较有效果的成绩，这件事情和以前的事情相比，是自己学习方法的不对，而不是自己学习的问题。

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。

拓扑分析算法

基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。

1 网页(Webpage)粒度的分析算法

PageRank和 HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链接。

拓扑分析算法

猜你喜欢