爬虫知识1：了解爬虫知识体系、安装Scrapy等模块

1、爬虫的知识介绍及相关概念

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通过爬虫爬取数据后，你就可以做一些数据分析、展示等工作。

1）知识图谱

要掌握爬虫，除了一些python中一些基础的语法、函数、模块、面向对象等知识，还需要了解或掌握以下知识点：

640?wx_fmt=png&wxfrom=5&wx_lazy=1

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求抓取页面，但需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务，已经过时了。

Requests是使用Apache2 Licensed许可证的，基于Python开发的HTTP库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests模块可以轻而易举的完成浏览器可有的任何操作。

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。主要用来帮助你下载网页、解析网页、自定义一些模块。我们只需专注于提取数据就好了；

使用requests模块、或scrapy框架会更方便一点。

我们主要介绍Requests模块和Scrapy框架的应用。

2）http简介：

HTTP协议（HyperText Transfer Protocol，超文本传输协议）客户端和服务器端数据传输的协议。设计HTTP最初目的是为了提供一种发布和接收HTML页面的方法。

http请求的一些方法：最常用的就是get和post方法

GET：请求资源
POST：请求表单或者文件，可能修改服务器资源，比如登录就需要用POST请求
PUT：更新资源
DELETE：删除指定资源
OPTIONS：获取服务器支持的HTTP请求方法，检查服务器性能

http请求时包含请求行、请求头、请求数据。其中header请求头有一些字段：

Host：请求的服务器的域名
User-Agent：用户请求信息：浏览器、操作系统等信息
Accept：请求端接收数据类型
Accept-Encoding：指定接收数据的压缩编码类型
Cookie：cookie信息
Date：日期
Keep-Alive：长连接

比如请求百度页面的请求头：右键--检查元素---network

640?wx_fmt=png

服务器应答的状态码的信息：

1xx：请求已接收，继续处理
2xx：请求成功
3xx：重定向，继续处理
4xx：客户端请求错误（403 Forbidden、404NOT FOUND、400BAD REQUEST...）
5xx：服务端错误

比如浏览百度时的code：

640?wx_fmt=png

1、安装python

可以去python官网下载，可以直接下载一个最新版。https://www.python.org/downloads/

目前的3.6.4版本是会直接添加环境变量的，如果没有添加，比如发现说“不是内部或外部命令”则可能是因为没有添加环境变量。

添加的方法是：进入计算机---属性-高级系统设置---高级--环境变量---下面的第二个框找到path，把python和python中的Scripts的目录贴上去。

比如两个文件夹如下：中间用";"隔开

C:\Users\...\AppData\Local\Programs\Python\Python36;C:\Users\...\AppData\Local\Programs\Python\Python36\Scripts;

640?wx_fmt=png

2、关于模块requests的安装

requests模块与安装其他的模块类似，直接使用pip3 install +模块名称即可。

步骤1：进入目录

开始—cmd，打开命令编辑框，输入如下命令(cd+空格+pip3所在的目录)，进入pip3的目录：

输入的命令：cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

步骤2：输入 pip3 install requests

640?wx_fmt=png

即可进行安装。

3、关于Scrapy框架的安装

系统为widows，

步骤1：进入目录

开始—cmd，打开命令编辑框，输入如下命令(cd+空格+pip3所在的目录)，进入pip3的目录：

输入的命令：cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

640?wx_fmt=png

步骤2：安装wheel

输入：pip3 install wheel

640?wx_fmt=png

步骤3：下载twisted

进入以下网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted，找到合适的版本，比如下图所示，保存到目录

640?wx_fmt=png

步骤4：cd进入刚刚下载的twisted的存放目录

比如输入：cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

步骤5：安装twisted

输入：pip3 install Twisted-17.9.0-cp36-cp36m-win_amd64.whl

640?wx_fmt=png

步骤6：cd进入pip3的目录，安装scrapy

输入：cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

安装：pip3 install scrapy

640?wx_fmt=png

步骤7：下载pywin32

下载网址：进入网站https://sourceforge.net/projects/pywin32/files/，选取合适的版本，exe下载，双击安装即可。

合适的版本，如果不清楚，可以根据你的python来看是32位还是64位

640?wx_fmt=png

步骤8：其他问题

如果安装之后发现cmd中无法运行python，不清楚是什么原因，即使添加环境变量依然不能解决，这时可以重新从python官网再下载一次，选择修复性安装即可。

安装python后，再打开cmd，运行下pip3 install scrapy。

验证是否安装：可以看到scripts文件夹中发现scrapy.exe，或者python下运行import scrapy。

640?wx_fmt=png

参考网址：

https://www.cnblogs.com/wuxl360/p/5567631.html

看端口号的命令，是进入cmd，输入“netstat”

看ip地址是，是进入cmd，输入“ipconfig/all”，选择ipv4那个

爬虫知识1：了解爬虫知识体系、安装Scrapy等模块

猜你喜欢