《数学之美》第10章 PageRank--Google的民主表决网页排名技术

1  PageRank算法的原理

    真正找到计算机网页自身质量的完美的数学模型的是Google的创始人拉里.佩奇和谢尔盖.布林。

    简单的说就是民主表决。

    核心思想:在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和依赖,那么他的排名就高。

    计算搜索结果的网页排名过程中需要用到网页本身的排名。

        解决这个问题的是布林。他把这个问题变成了一个二维矩阵相乘的问题,并用迭代的方法解决这个问题。先假设所有网页的排名是相同度的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次的迭代排名算出第二次的排名。不论初始值如何选取,这种算法都能保证网页排名的估计值能够收敛到排名的真实值。

    网页排名的高明之处在于它把整个互联网当作一个整体来对待。以前的信息检索大多把每一个网页当作独立的个体对待,大部分人只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

2  PageRank的计算方法

    为第一、第二、...第N个网页的网页排名。矩阵A为网页之间的链接数目。A已知,B未知。

     假定是第i 次迭代的结果。

    初始假设:所有网页的排名都是1/N。当两次迭代的结果与之间的差异非常小,接近于零时,停止迭代运算,算法结束。一般,只要10次左右的迭代基本上就收敛了。

        由于网页之间的链接的数量相比互联网的规模非常稀疏,因此网页的网页排名也需要对零概率或小概率事件进行平滑处理。

猜你喜欢

转载自blog.csdn.net/wangsiji_buaa/article/details/80179456