python爬虫第一课 开发环境配置

一、Python3的安装

二、请求库的安装

1、requests的安装

直接pip安装:pip3 install requests

2、Selenium的安装

selenium是一个自动测试化工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。

直接pip安装:pip install selenium

3、ChromeDriver的安装

首先下载Chrome浏览器,并记住Chrome的版本号。然后下载ChromDriver,下载完成之后需要进行环境变量的配置,直接将chromedriver.exe复制到python的Scripts目录下。

当然,可以在命令行下进行验证:chromedriver。

4、PhantomJS的安装

百度下载安装包之后,将其exte文件放在python3的Scripts目录下,安装之后进行在命令行下进行测试:phantomjs。

5、aiohttp的安装

直接进行 pip3 install aiohttp

此外同时推荐安装两个库,一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns。

直接进行 pip3 install cchardet aiodns

三、解析库的安装

1、lxml的安装

直接进行 pip install lxml

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath的解析方式,而且解析效率非常高。

2、Beautiful Soup的安装

Beautiful Soup是python的HTML或XML的解析库,可以用来方便的从网页上提取数据。注意:Beautiful Soup的HTML和XML的解析器是依赖于lxml库的。

3、pyquery的安装

同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。

直接进行 pip3 install pyquery 

4、tessserocr的安装

--------------待续。。。

猜你喜欢

转载自blog.csdn.net/weixin_39241397/article/details/80714486