一、爬虫基础（1）

网络爬虫的组成

网络爬虫由控制节点、爬虫节点、资源库构成。
网络爬虫中可以有多个控制节点，每个控制节点下可以有多个爬虫节点，控制节点之间可以互相通信，同时，控制节点和其下的各爬虫节点之间也可以进行互相通信，属于同一个控制节点下的各爬虫节点间，亦可以互相通信。
控制节点，也叫作爬虫的中央控制器，主要负责根据URL地址分配线程，并调用爬虫节点进行具体的爬行。
爬虫节点会按照相关的算法，对网页进行具体的爬行，主要包括下载网页以及对网页的文本进行处理，爬行后，会将对应的爬行
结果存储到对应的资源库中。

网络爬虫的类型

1.通用网络爬虫（General Purpose Web Crawler）

通用网络爬虫又叫作全网爬虫，顾名思义，通用网络爬虫爬取的目标资源在全互联网中。
主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块等构成。通用网络爬虫在爬行的时候会采取一定的爬行策略，主要有深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫（Focused Crawler）

也叫主题网络爬虫，顾名思义，聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫，聚焦网络爬虫不像通用网络爬虫一样将目标资源定位在全互联网中，而是将爬取的目标网页定位在与主题相关的页面中
聚焦网络爬虫主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务。
主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成。内容评价模块可以评价内容的重要性，同理，链接评价模块也可以评价出链接的重要性，
聚焦网络爬虫的爬行策略主要有4种，即基于内容评价的爬行策略、基于链接评价的爬行策略、基于增强学习的爬行策略和基于语境图的爬行策略。

3.增量式网络爬虫（Incremental Web Crawler）

所谓增量式，对应着增量式更新。增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新，所以增量式网络爬虫，在爬取网页的时候，只爬取内容发生变化的网页或者新产生的网页，对于未发生内容变化的网页，则不会爬取。增量式网络爬虫在一定程度上能够保证所爬取的页面，尽可能是新页面。

4.深层网络爬虫（Deep Web Crawler）

爬取互联网中的深层页面
互联网中，网页按存在方式分类，可以分为表层页面和深层页面。所谓的表层页面，指的是不需要提交表单，使用静态的链接就能够到达的静态页面；而深层页面则隐藏在表单后面，不能通过静态链接直接获取，是需要提交一定的关键词之后才能够获取得到的页面。
深层网络爬虫主要由URL列表、LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器等部分构成。
深层网络爬虫最重要的部分即为表单填写部分。
表单的填写有两种类型：第一种是基于领域知识的表单填写，简单来说就是建立一个填写表单的关键词库，在需要填写的时候，根据语义分析选择对应的关键词进行填写；第二种是基于网页结构分析的表单填写，简单来说，这种识有限的情况下使用，这种方式会根据网页结构进行分析，并自动地进行表单填写。

实现原理和技术

通用网络爬虫

1）获取初始的URL。初始的URL地址可以由用户人为地指定，也可以由用户指定的某个或某几个初始爬取网页决定。
2）根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后，首先需要爬取对应URURL地址中的网页，爬取了对应的URL地址中的网页后，将网页存储到原始数据库中，并且在爬取网页的同时，发现新的URL地址，同时将已爬取的URL地址存放到一个URL列表中，用于去重及判断爬取的进程。
3）将新的URL放到URL队列中。在第2步中，获取了下一个新的URL地址之后，会将新的URL地址放到URL队列中。
4）从URL队列中读取新的URL，并依据新的URL爬取网页，同时从新网页中获取新URL，并重复上述的爬取过程。
5）满足爬虫系统设置的停止条件时，停止爬取。在编写爬虫的时候，一般会设置相应的停止条件。如果没有设置停止条件，爬虫则会一直爬取下去，一直到无法获取新的URL地址为止，若设置了停止条件，爬虫则会在停止条件满足时停止爬取。

聚焦网络爬虫

聚焦网络爬虫，由于其需要有目的地进行爬取，所以对于通用网络爬虫来说，必须要增加目标的定义和过滤机制，具体来说，此时，其执行原理和过程需要比通用网络爬虫多出三步，即目标的定义、无关链接的过滤、下一步要爬取的URL地址的选取等

1）对爬取目标的定义和描述。在聚焦网络爬虫中，我们首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标，以及进行相关的描述。
2）获取初始的URL。
3）根据初始的URL爬取页面，并获得新的URL。
4）从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的爬取是有目的性的，所以与目标无关的网页将会被过滤掉。同时，也需要将已爬取的URL地址存放到一个URL列表中，用于去重和判断爬取的进程。
5）将过滤后的链接放到URL队列中。
6）从URL队列中，根据搜索算法，确定URL的优先级，并确定下一步要爬取的URL地址。在通用网络爬虫中，下一步爬取哪些URL地址，是不太重要的，但是在聚焦网络爬虫中，由于其具有目的性，故而下一步爬取哪些URL地址相对来说是比较重要的。对于聚焦网络爬虫来说，不同的爬取顺序，可能导致爬虫的执行效率不同，所以，我们需要依据搜索策略来确定下一步需要爬取哪些URL地址。
7）从下一步要爬取的URL地址中，读取新的URL，然后依据新的URL地址爬取网页，并重复上述爬取过程。
8）满足系统中设置的停止条件时，或无法获取新的URL地址时，停止爬行。