类型	库名	简介
通用	urllib	Python内置的HTTP请求库，提供一系列用于操作URL的功能
	requests	基于urllib，采用Apache2 Licensed开源协议的HTTP库
	urllib 3	提供很多Python标准库里所没有的重要特性：线程安全，连接池，客户端SSL/TLS验证，文件分部编码上传，协助处理重复请求和HTTP重定位，支持压缩编码，支持HTTP和SOCKS代理，100%测试覆盖率
框架	scrapy	一个为了爬取网站数据，提取结构性数据而编写的应用框架
HTML/XML解析器	lxml	C语言编写高效HTML/XML处理库。支持XPath
HTML/XML解析器	BeautifulSoup 4	纯Python实现的HTML/XML处理库，效率相对较低

配置MySQL数据库

1. Windows下MySQL配置

MySQL版本为社区版本mysql-installer-community-5.6.39.0，在64位的Windows系统上，安装该版本的MySQL具体步骤如下。

双击打开msi安装包，勾选接受许可条款，单击“Next”按钮后进入产品安装选择。

在弹出框中选择64位版本。

在下方左侧栏内选择需要安装的程序，单击右箭头移至安装栏内。

单击 “Next”按钮后，会检测系统上是否安装有相关依赖的软件，若没有安装，则会出现类似下图所示的界面。

单击 “Next”按钮后，进入安装确认步骤，将被安装的程序会显示在框内，单击“Execute”按钮将开始安装过程。

安装完成后，还需配置服务，一般用户类型选择“Development Machine”，MySQL的默认端口为3306。

设置root账户的密码，可添加一个具有普通用户权限的MySQL用户账户，也可不添加。

勾选“Configure MySQL Server as a Windows Service”后将以系统用户运行windows服务，在Windows下MySQL默认服务名为mysql56。

最后进入服务配置应用步骤，单击“Execute”按钮将开始执行。

执行成功的服务配置将变为绿色的勾选状态，单击 “Finish”按钮完成配置过程。

安装完成后还需要配置MySQL的环境变量，步骤如下。

打开“环境变量”对话框。右键单击“我的电脑”图标，单击“高级系统设置”按钮，在弹出的“系统属性”对话框中单击“环境变量”按钮，即可弹出的“环境变量”对话框。

设置MySQL的环境变量：设置环境变量有两种方法，以下为第一种。新建环境变量“MYSQL_HOME”，变量值填写“C:\Program Files\MySQL\MySQL Server 5.6”，其中MySQL默认安装在C:\Program Files路径下。

在“Path”变量后面添加“%MYSQL_HOME%\bin”。

设置MySQL的环境变量：第二种设置环境变量的方法。直接在“Path”变量中添加“C:\Program Files\MySQL\MySQL Server 5.6\bin”。

使用管理员权限运行命令提示符，使用“net start mysql56”命令启动MySQL服务，使用“net stop mysql56”可关闭MySQL服务。

2. Linux下MySQL配置

Linux版本为CentOS 7，使用“yum”命令安装mysql-community-5.6.40版本的MySQL数据库。切换至root用户，使用“rpm -qa | grep mysql”命令查看是否已经安装MySQL数据库，没有安装将没有显示，若原本有安装也可使用“rpm -e mysql”命令进行卸载。

CentOS 7上将MySQL从默认软件列表中移除，用MariaDB来代替，所以必须要去官网上进行下载，在官网上找到下载链接，用“wget”命令打开。

使用“rpm -ivh mysql-community-release-el7-5.noarch.rpm”命令进行加载，之后运行“yum -y install mysql mysql-server mysql-devel” 命令进行安装。

安装完成后再次运行“yum -y install mysql mysql-server mysql-devel” 命令和“rpm -qa | grep mysql”命令进行确认。

使用“service mysqld start”命令启用MySQL服务。

运行“mysql -u root -p”命令进入MySQL客户端，密码默认为空，可使用“help”或“\h”命令查看帮助。

配置MongoDB数据库

1. Windows下MongoDB配置

使用64位的3.4版本的MongoDB： mongodb-win32-x86_64-2008plus-ssl-v3.4-latest-signed.msi，安装及具体配置过程如下。

打开msi安装包，勾选同意许可条款，单击“Next”按钮。

安装程序提供两种安装模式，完整（Complete）模式会将全部内容安装在C盘路径且无法更改，若要更改安装路径则需要选择下图中的定制（Custom）模式。

在定制模式下可选择安装路径和需要安装的部件，单击“Next”按钮开始安装过程。

安装完成后，需进入安装目录，建立data和log文件夹分别存放数据和log文件，还需创建一个mongo.conf配置文件。

在logs文件夹内创建一个名为mongo.log的日志文件，内容留空即可。

在系统变量“Path”中添加MongoDB的路径，如D:\Program Files\MongoDB\Server\3.4\bin。

还需安装MongoDB服务，使用管理员权限打开cmd启动控制台，安装服务完毕后可使用命令对服务进行开启和关闭。

服务启动后，在浏览器输入http://127.0.0.1:27017，若出现下图所示的字样，则说明启动成功。

2.Linux下MongoDB配置

在Linux环境下，选用mongodb-linux-x86_64-rhel70-3.4.11版本的MongoDB数据库，安装步骤如下。使用“wget”命令从官网获取MongoDB数据库的tar包。

将tar包进行解压缩，并复制到“/usr/local/”路径下。

切换至“/usr/local/mongodb/bin”路径下，使用 “sudo vim mongodb.conf” 命令创建MongoDB数据库配置文件。

切换回“/usr/local/mongodb”路径下，依次运行“sudo mkdir data”、“cd data”、“sudo mkdir db”、“sudo mkdir logs”命令创建文件夹。

再次切换至“/usr/local/mongodb/bin”路径下，运行“sudo ./mongod -f mongodb.conf”命令启动MongoDB。

打开浏览器输入“http://127.0.0.1:27017”，出现下图中的信息，说明启动成功。

小结：爬虫是一种可以自动下载网页的脚本或计算机工具，可大致分为4种运作原理，用于个人或学术研究的爬虫通常是合法的。反爬虫为网站针对爬虫进行检测和限制的过程，爬虫需针对反爬虫手段制定对应的爬取策略。 Python常用的爬虫库包含urllib、requests、urllib 3、scrapy、lxml和BeautifulSoup 4等库，通常需要配套数据库用于存储爬取的数据。

Python网络爬虫学习这一篇就够了!（基础篇、网站反爬虫的目的与手段、配置Python爬虫环境、配置MySQL数据库。）

认识爬虫

爬虫的概念

爬虫的原理

1. 通用网络爬虫

2. 聚焦网络爬虫

3. 增量式网络爬虫

4. 深层网络爬虫

爬虫的合法性与robot.txt协议

1. 爬虫的合法性

2. robot.txt协议

认识反爬虫

网站反爬虫的目的与手段

1. 通过User-Agent校验反爬

2. 通过访问频度反爬

3. 通过验证码校验反爬

4. 通过变换网页结构反爬

5. 通过账号权限反爬

配置Python爬虫环境

Python爬虫相关库介绍与配置