搜索引擎之网络爬虫-让我们更了解互联网

网络爬虫,又有名称spider,crawler,网络蜘蛛等名称(下文中采用spider说明)
记得自己学java时的第一个规模稍大的程序就是爬虫系统,从此迈开了搜索引擎学习的第一步。
当时使用的是Heritrix,加上有一本书《网络机器人Java编程指南》,环境使用的是eclipse2.1版本。
(一)互联网资源结构分析:
我们知道互联网资源对应唯一的url,而资源之间通过链接的方式进行关联的,这样互联网上的资源会组织起一张庞大的资源网。给定某网址,展现给访问者的是资源的集合,除html页面本身外,html代码中还包含引用的图片资源,javascript,css资源。
刚开发出来的网站没有外部链接指向该网站,访问该网站的唯一方式是在浏览器中输入网站地址。
目前比较流行的SNS系统,其实就是将人物信息作为资源搬到网络上,并借助人与人之间的关系建立起庞大的人物信息网络,让你想逃都逃不掉。

(二)浏览器是如何解析资源并进行展示的呢?
准备:当在浏览器中输入一个url时,并按回车;
执行步骤,
1. 浏览器获取url所对应资源的源代码(html源代码)
2. 提取url中附加资源列表(js,css,图片等);
3. 采用并行的方式获取各种资源;
4. 浏览器解析附加资源列表,并进行解析。
5. 页面定位和渲染。

猜你喜欢

转载自uuchi.iteye.com/blog/945423