爬虫 | 准备库的安装

1.请求库的安装

1.1 requests请求库   

pip install requests

1.2 selenium的安装

selenium是一种自动化测试工具,可以用来驱动预览器执行任务。

pip install selenium

  selenium需要和预览器进行配合,我下载的是无头预览器,phantomjs

  下载地址:http://phantomjs.org/download.html

  安装成功后将bin目录放在环境变量下

  两种测试方式 1.在cmd窗口输入 phantomjs 进入命令证明配置成功

         2. 

from selenium import webdriver
html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe')
html.get('https://www.baidu.com/')
print(html.current_url)

1.3 aiohttp 提供异步Web服务的库

   aiohttp的异步操作借助于 async/await关键字写法变得更加简洁

   下载方式:pip install aitohttp

   官方同样推荐两个库:1.字符编码检测库cchardet和加速DNS解析库aiodns 命令用pip下载就行

   利用这几个库来维护代理池,利用异步方式检测大量代理的运行状况,会极大的提高效率

2.解析库的安装

2.1 lxml的安装

      lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高

  直接pip install lxml就行

2.2 Beautifulsoup

  pip install beautifulsoup4

  验证:

    

2.3 pyquery 是一个强大的网页解析工具,提高了和jQuery类似的语句来解析HTML文档,支持CSS选择器

      pip install pyquery

2.4 tesserocr 的安装

  大多数验证码可以用OCR来识别,OCR就是Optical Character Recognition,光学字符识别,tesserocr是python的一个ORC识别库,他的核心是tesseract,因此在安装tesserocr之前,我们需要安装tesseract。

tesseract下载:https://digi.bib.uni-mannheim.de/tesseract/

 

带vev的为开发版本,不带的为稳定版本,安装完成后再安装tesserocr就行,用pip install tesserocr pillow

 Redis 数据库下载 

https://github.com/MicrosoftArchive/redis/releases

可视化工具的安装

https://www.cnblogs.com/zheting/p/7670154.html

 

猜你喜欢

转载自www.cnblogs.com/404NooFound/p/10072619.html
今日推荐