Python从零开始学爬虫(开始编码前的准备工作)

作为一名搞硬件的大学生,近日来心血来潮想学学爬虫,虽然是从零开始,但不可以急功近利,我整理了一下爬虫学习的一些心得,希望以后大家可以避开我的一些坑。

一、下载pycharm和anaconda

工欲善其事,必先利其器,要想学爬虫,先下pycharm

PyCharm: the Python IDE for Professional Developers by JetBrains

上面是pycharm的下载网址

Anaconda | The World's Most Popular Data Science Platform

上面是anaconda的下载网址

这两者的下载方法,网络上有很多,我不再赘述

二、创建文件前我完成了汉化

倒不是说我英语不好,作为一个中国人,有汉语那我必须优先用汉语!

1、打开设置

2、找到插件

 3、在上方的搜索栏里输入Chinese,下载插件

这里我已经安装过了,我就不再一一展示了,这里给大家罗列出那个汉化包的模样,注意一点的是,我的pycharm版本下载插件的时候不能识别大小写,可能大家的版本也会这样,大家注意一下,如果没搜到,一定要注意大小写,下载完之后,我们可以直接关掉pycharm重启就可以了。

 三、创建一个新的工程,选好指定的python解释器

这里可以在外面更改python解释器

 但我还是喜欢在创建完项目后再选择pyhton解释器

再次点击设置,找到项目下面的python解释器

 这里注意一点,我这里展示的是基础的解释器,大家还记得我们一开始安装的anaconda吗?anaconda里面的所有库都是python可以兼容的,我之所以在项目下选择不同的python解释器,主要原因是为了更加灵活,大家也可以在一开始选择好python解释器,纯个人习惯

 四、完成以上步骤,开始下载爬虫常用库

其实这一步我是不愿意去写的,因为在网上有很多版本的教程,也就意味着有很多不同的常用爬虫库,我也是半路出家,从网上自学的python爬虫,以下是我爬虫常用的库

1、点击左上角的+号,我因为版本的原因,这个+号在左上角,也有在界面右边的

 点击完之后,就是这个样子

 2、点击左上角的放大镜图标,输入lxml, requests和beautifulsoup4点击安装软件包,这里我就不给大家一一展示了,步骤是一样的

3、为啥要安装这三个库呢?

 requests库作为建立在urllib3基础上的一个库,作为常用于http请求的模块,使用它内部的一些函数,我们可以实现用python来访问指定网页的内容,这个我会在之后的博客里继续更新

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码

lxml是使用Python语言编写的库,主要用于解析和提取HTML或者XML格式的数据,它不仅功能非常丰富,而且便于使用,可以利用XPath语法快速地定位特定的元素或节点。

加载完这三个库,也就意味着我们前期的准备工作已经做好了

猜你喜欢

转载自blog.csdn.net/weixin_51651698/article/details/124005255