什么是爬虫？

第一步：获取网页数据

获取网页数据，也就是通过网址（ URL：Uniform Resource Locator,统一资源定位符），获得网络的数据，充当搜索引擎。当输入网址，我们就相当于对网址服务器发送了一个请求，网站服务器收到以后，进行处理和解析，进而给我们一个相应的相应。如果网络正确并且网址不错，一般都可以得到网页信息，否则告诉我们一个错误代码，比如404. 整个过程可以称为请求和响应。

在python程序里面，上述过程可以通过获取网页中的源代码实现，进而获得网页中的数据。首先看一下网址的源代码查看方法，使用google浏览器，右键选择检查，查看需要爬取的网址源代码，具体如下：从图可得知，在Network选项卡里面，点击第一个条目，也就是www.baidu.com，看到源代码。在本图中，第一部分是General，包括了网址的基本信息，比如状态 200等，第二部分是Response Headers,包括了请求的应答信息,还有body部分，比如Set-Cookie,Server等。第三部分是，Request headers，包含了服务器使用的附加信息，比如Cookie,User-Agent等内容。

第二步：解析网页数据

在第一步，我们获得了网页的源代码，也就是数据。然后就是解析里面的数据，为我们的分析使用。常见的方法有很多，比如正则表达式、xpath解析等。

第三步：存储网页数据

解析完数据以后，就可以保存起来。如果不是很多，可以考虑保存在txt 文本、csv文本或者json文本等，如果爬取的数据条数较多，我们可以考虑将其存储到数据库中。因此，我们需要学会 MySql、MongoDB、SqlLite的用法。更加深入的，可以学习数据库的查询优化。

第四步：分析网页数据

爬虫的目的是分析网页数据，进的得到我们想要的结论。在 python数据分析中，我们可以使用使用第三步保存的数据直接分析，主要使用的库如下：NumPy、Pandas、 Matplotlib 三个库。

NumPy ：它是高性能科学计算和数据分析的基础包。
Pandas : 基于 NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。
Matplotlib：Python中最著名的绘图系统Python中最著名的绘图系统。它可以制作出散点图，折线图，条形图，直方图，饼状图，箱形图散点图，折线图，条形图，直方图，饼状图，箱形图等。

要想学会这是不还是需要时间的呢。

进群:125240963 ！即可获取数十套PDF哦！

零基础没关系，只要会了这4步，一般的爬虫随便玩！爬虫实战！

什么是爬虫？

猜你喜欢