1.请求库的安装
1.1 requests请求库
pip install requests
1.2 selenium的安装
selenium是一种自动化测试工具,可以用来驱动预览器执行任务。
pip install selenium
selenium需要和预览器进行配合,我下载的是无头预览器,phantomjs
下载地址:http://phantomjs.org/download.html
安装成功后将bin目录放在环境变量下
两种测试方式 1.在cmd窗口输入 phantomjs 进入命令证明配置成功
2.
from selenium import webdriver html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe') html.get('https://www.baidu.com/') print(html.current_url)
1.3 aiohttp 提供异步Web服务的库
aiohttp的异步操作借助于 async/await关键字写法变得更加简洁
下载方式:pip install aitohttp
官方同样推荐两个库:1.字符编码检测库cchardet和加速DNS解析库aiodns 命令用pip下载就行
利用这几个库来维护代理池,利用异步方式检测大量代理的运行状况,会极大的提高效率
2.解析库的安装
2.1 lxml的安装
lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高
直接pip install lxml就行
2.2 Beautifulsoup
pip install beautifulsoup4
验证:
2.3 pyquery 是一个强大的网页解析工具,提高了和jQuery类似的语句来解析HTML文档,支持CSS选择器
pip install pyquery
2.4 tesserocr 的安装
大多数验证码可以用OCR来识别,OCR就是Optical Character Recognition,光学字符识别,tesserocr是python的一个ORC识别库,他的核心是tesseract,因此在安装tesserocr之前,我们需要安装tesseract。
tesseract下载:https://digi.bib.uni-mannheim.de/tesseract/
带vev的为开发版本,不带的为稳定版本,安装完成后再安装tesserocr就行,用pip install tesserocr pillow
Redis 数据库下载
https://github.com/MicrosoftArchive/redis/releases
可视化工具的安装
https://www.cnblogs.com/zheting/p/7670154.html