python3学习--开发环境配置

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cvntopuyef/article/details/81871018

windows下安装

https://www.python.org/

请求库安装

爬虫可以简单分为几步:抓取页面、分析页面、存储数据
在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作,用到的第三方库有requests、Selenium、和aiohttp等

1.requests安装   pip3 install requests
2.Selenium安装-自动化测试工具   pip3 install selenium
3.ChromeDriver安装-驱动chrome浏览器完成相应的操作,安装前需要找到chrome浏览器版本,下载对应的chromedriver,将下载后的执行文件,放入python下的Scripts文件夹下,进入cmd,输入chromedriver验证
4.GeckoDriver安装-驱动火狐浏览器完成相应操作
5.还有PhantomJS、aiohttp等

解析库安装

抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有很多种,可以用正则来提取,但是相对比较繁琐。这里有许多强大的解析库,如lxml、BeautifulSoup、pyquery等此外,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等,利用他们,可以高效便捷地从网页中提取有效信息

1.lxml的安装-lxml是Python的一个解析库,支持HTML和XML解析,支持XPath结息方式,效率非常高
    pip3 install lxml
2.BeautifulSoup的安装-它是Python的一个HTML和XML的解析库,可以方便的从网页中提取数据,它拥有强大的API和多样的解析方式
    pip3 install beautifulsoup4
3.pyquery-是一个强大的网页解析工具,提供了和JQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便
    pip3 install pyquery
4.tesserocr的安装-在爬虫过程中,会遇到各种各样的验证码,而大多数验证码还是图形验证码,这个时候,我们可以直接用OCR(光学字符识别)来识别

存储库的安装

1.pymysql-与mysql交互
    pip3 install pymysql

猜你喜欢

转载自blog.csdn.net/cvntopuyef/article/details/81871018