信息的度量和作用
信息熵
条件熵
互信息
相对熵
贾里尼克
布尔代数和搜索引擎
二进制的布尔代数
索引:搜索引擎为什么可以在如此短的时间内找如此巨量的内容?建立索引。
每个网站就像图书馆里的一本书,我们不可能在图书馆书架上一本一本找,而是要通过搜索卡片找到他的位置。
最简单的索引是用一个很长的二进制数表示一个关键字是否出现在一篇文献中;
有多少篇文献,就有多少位数,每一位对应一篇文献,1代表相应的文献有这个关键字,0代表没有。
同时包含两个关键字的时候,进行与运算就可以了。
网络爬虫和图论:
前面讲的是如何建立搜索引擎的索引,那如何下载互联网所有网页?
广度优先搜索:一层一层往外访问;
深度优先搜索:一条路走到底,再一个一个节点回来,一条路走到底,循环。
使用BFS还是DFS?
理论上讲,能在大致相同的时间里爬下整个静态互联网上的内容。但是工程上两个假设:不考虑时间因素,互联网静态不变,这都是无法做到的。这个问题因该被定义为如何在有限时间里最多地爬下最重要的网页。
如果爬虫非常小,只能下载非常有限的网页,那么应该下载的是所有网站的首页。如果爬虫在扩大些,应该趴下直接连接的网页。在这个前提下,BFS好。
握手成本