Python从零开始学爬虫（开始编码前的准备工作)

作为一名搞硬件的大学生，近日来心血来潮想学学爬虫，虽然是从零开始，但不可以急功近利，我整理了一下爬虫学习的一些心得，希望以后大家可以避开我的一些坑。

一、下载pycharm和anaconda

工欲善其事，必先利其器，要想学爬虫，先下pycharm

PyCharm: the Python IDE for Professional Developers by JetBrains

上面是pycharm的下载网址

Anaconda | The World's Most Popular Data Science Platform

上面是anaconda的下载网址

这两者的下载方法，网络上有很多，我不再赘述

二、创建文件前我完成了汉化

倒不是说我英语不好，作为一个中国人，有汉语那我必须优先用汉语！

1、打开设置

2、找到插件

3、在上方的搜索栏里输入Chinese，下载插件

这里我已经安装过了，我就不再一一展示了，这里给大家罗列出那个汉化包的模样，注意一点的是，我的pycharm版本下载插件的时候不能识别大小写，可能大家的版本也会这样，大家注意一下，如果没搜到，一定要注意大小写，下载完之后，我们可以直接关掉pycharm重启就可以了。

三、创建一个新的工程，选好指定的python解释器

这里可以在外面更改python解释器

但我还是喜欢在创建完项目后再选择pyhton解释器

再次点击设置，找到项目下面的python解释器

这里注意一点，我这里展示的是基础的解释器，大家还记得我们一开始安装的anaconda吗？anaconda里面的所有库都是python可以兼容的，我之所以在项目下选择不同的python解释器，主要原因是为了更加灵活，大家也可以在一开始选择好python解释器，纯个人习惯

四、完成以上步骤，开始下载爬虫常用库

其实这一步我是不愿意去写的，因为在网上有很多版本的教程，也就意味着有很多不同的常用爬虫库，我也是半路出家，从网上自学的python爬虫，以下是我爬虫常用的库

1、点击左上角的＋号，我因为版本的原因，这个＋号在左上角，也有在界面右边的

点击完之后，就是这个样子

2、点击左上角的放大镜图标，输入lxml, requests和beautifulsoup4点击安装软件包，这里我就不给大家一一展示了，步骤是一样的

3、为啥要安装这三个库呢？

requests库作为建立在urllib3基础上的一个库，作为常用于http请求的模块，使用它内部的一些函数，我们可以实现用python来访问指定网页的内容，这个我会在之后的博客里继续更新

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码

lxml是使用Python语言编写的库，主要用于解析和提取HTML或者XML格式的数据，它不仅功能非常丰富，而且便于使用，可以利用XPath语法快速地定位特定的元素或节点。

Python从零开始学爬虫（开始编码前的准备工作)

猜你喜欢