版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cvntopuyef/article/details/81871018
windows下安装
https://www.python.org/
请求库安装
爬虫可以简单分为几步:抓取页面、分析页面、存储数据
在抓取页面的过程中,我们需要模拟浏览器向服务器发送请求,所以需要用到一些Python库来实现HTTP请求操作,用到的第三方库有requests、Selenium、和aiohttp等
1.requests安装 pip3 install requests
2.Selenium安装-自动化测试工具 pip3 install selenium
3.ChromeDriver安装-驱动chrome浏览器完成相应的操作,安装前需要找到chrome浏览器版本,下载对应的chromedriver,将下载后的执行文件,放入python下的Scripts文件夹下,进入cmd,输入chromedriver验证
4.GeckoDriver安装-驱动火狐浏览器完成相应操作
5.还有PhantomJS、aiohttp等
解析库安装
抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有很多种,可以用正则来提取,但是相对比较繁琐。这里有许多强大的解析库,如lxml、BeautifulSoup、pyquery等此外,还提供了非常强大的解析方法,如XPath解析和CSS选择器解析等,利用他们,可以高效便捷地从网页中提取有效信息
1.lxml的安装-lxml是Python的一个解析库,支持HTML和XML解析,支持XPath结息方式,效率非常高
pip3 install lxml
2.BeautifulSoup的安装-它是Python的一个HTML和XML的解析库,可以方便的从网页中提取数据,它拥有强大的API和多样的解析方式
pip3 install beautifulsoup4
3.pyquery-是一个强大的网页解析工具,提供了和JQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便
pip3 install pyquery
4.tesserocr的安装-在爬虫过程中,会遇到各种各样的验证码,而大多数验证码还是图形验证码,这个时候,我们可以直接用OCR(光学字符识别)来识别
存储库的安装
1.pymysql-与mysql交互
pip3 install pymysql