python爬虫工程师成长之路一初识爬虫

爬虫主要由控制节点、爬虫节点、资源库组成。

控制节点和爬虫节点的关系

按照爬虫实现的技术和结构可以分为通用爬虫、聚焦爬虫、增量式爬虫、深层爬虫等类型；在实际运用中，常是这几类的结合体

名称	特点
通用爬虫	又称全网爬虫；通用爬虫的目标资源全在互联网中，通用爬虫爬取的目标数据巨大，范围广泛，所以对性能要求较高。常用于大型搜索引擎，应用价值较高。
聚焦爬虫	又称主体爬虫；聚焦爬虫按照事先定义好的主题进行网页爬取，相对于通用爬虫可以节省资源。常用于特定信息的爬取，为某一类人群服务。
增量式爬虫	增量式爬虫就是随着增量式更新。增量式更新指更新的时候只更新网页的地方，未改变的不做更新；所以增量式爬虫在爬取网页时只爬取新出现的网页；一定程度上保证了所爬取的网页是更新之后的。
深层爬虫	可以爬取互联网中的深层页面。在互联网中，深层页面的数量比静态页面的数量多得多。深层爬虫是最重要的部分是表单填写，所以i深层爬虫需要想办法自动填写好表单。

注

深层页面：在互联网中，网页可以分为表成页面和深层页面。表成页面就是不需要提交表单，直接使用静态的链接就能到达的页面；深层页面指的是不能直接通过静态链接获取，而是需要提交关键词之后才能够获取到的页面

因为聚焦爬虫可以节省资源，实用性较其他爬虫更高，所以我们将对聚焦爬虫进行详细讲解。
原理

简单工作过程

实际工作过程
在这里插入图片描述

所谓用户爬虫就是专门爬虫互联网中用户数据的一种爬虫。
爬取用户信息可以分析出很多有价值的东西，如爬取淘宝的用户信息，可以分析出该用户的喜好，该用户的大概收入，年龄阶段等等

发布了85 篇原创文章 · 获赞 158 · 访问量 6万+

私信关注

python爬虫工程师 成长之路一 初识爬虫