python3学习--开发环境配置

windows下安装

https://www.python.org/

请求库安装

爬虫可以简单分为几步：抓取页面、分析页面、存储数据
在抓取页面的过程中，我们需要模拟浏览器向服务器发送请求，所以需要用到一些Python库来实现HTTP请求操作，用到的第三方库有requests、Selenium、和aiohttp等

1.requests安装   pip3 install requests
2.Selenium安装-自动化测试工具   pip3 install selenium
3.ChromeDriver安装-驱动chrome浏览器完成相应的操作，安装前需要找到chrome浏览器版本，下载对应的chromedriver，将下载后的执行文件，放入python下的Scripts文件夹下，进入cmd，输入chromedriver验证
4.GeckoDriver安装-驱动火狐浏览器完成相应操作
5.还有PhantomJS、aiohttp等

解析库安装

抓取网页代码之后，下一步就是从网页中提取信息。提取信息的方式有很多种，可以用正则来提取，但是相对比较繁琐。这里有许多强大的解析库，如lxml、BeautifulSoup、pyquery等此外，还提供了非常强大的解析方法，如XPath解析和CSS选择器解析等，利用他们，可以高效便捷地从网页中提取有效信息

1.lxml的安装-lxml是Python的一个解析库，支持HTML和XML解析，支持XPath结息方式，效率非常高
    pip3 install lxml
2.BeautifulSoup的安装-它是Python的一个HTML和XML的解析库，可以方便的从网页中提取数据，它拥有强大的API和多样的解析方式
    pip3 install beautifulsoup4
3.pyquery-是一个强大的网页解析工具，提供了和JQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便
    pip3 install pyquery
4.tesserocr的安装-在爬虫过程中，会遇到各种各样的验证码，而大多数验证码还是图形验证码，这个时候，我们可以直接用OCR（光学字符识别）来识别

存储库的安装

1.pymysql-与mysql交互
    pip3 install pymysql

python3学习--开发环境配置

windows下安装

请求库安装

解析库安装

存储库的安装

猜你喜欢