安装爬虫常用库

pip安装

安装requests

pip install requests

安装Selenium:

  • Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,对于JS渲染的页面,这种方式非常有效
  • 推荐pip安装
  • pip install selenium(pip install selenium==3.4.3(不跟版本默认安装最新版))
  • 验证
  • import selenium

安装ChromeDriver:

  • 官网:https://sites.google.com/a/chromium.org/chromedriver
  • 下载地址:https://chromedriver.storage.googleapis.com/index.html
  • 注意选择对应的版本
  • 下载完成将其配置到环境变量,windows直接将其放在python的Scripts目录即可,也可以单独配
  • 执行命令

    程序中测试,开启浏览器空白页,证明配置没有问题

 安装GeckoDriver

  • 对于FireFox同Chrome一样
  • 下载地址:https://github.com/mozilla/geckodriver/releaes

安装PhantomJS

  • 使用Chrome和firefox进行网页抓取,有个不便之处,由于一直开着浏览器,爬取网页的过程中浏览器可能一直动来动去,目前新版本Chrome支持无界面模式
  • 另一种就是安装一个无界面浏览器PhantomJS,此时抓取程序会在后台运行,不会有窗口
  •   官网:http://phantomjs.org
  •   官方文档:http://phantomjs.org/quick-start.html
  •   下载地址:http://phantomjs.org/download.html
  •   API接口说明:http://phantomjs.org/api/command-line.html
  •   下载完成解压,将bin目录的phantomjs.exe文件加到环境变量中,这里直接拷贝到python的Scripts目录
  •   验证:执行后没有浏览器弹窗,输出百度URL

    

安装lxml

  • 它是python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,效率非常高
  • pip安装,无报错即成功
  • pip install lxml
  • 验证:imprt lxml

安装Beautiful Soup

  • pip install beautifulsoup4
  • 验证:

安装pyquery

  • pip install pyquery
  • 验证:import pyquery

 

安装pymysql

验证,导入成功

安装pymongo

验证,导入成功

安装redis

验证,导入成功

安装flask

验证,导入成功

 安装django

 

验证,导图成功

 安装jupyter

验证,导入成功

猜你喜欢

转载自www.cnblogs.com/Mr-chenshuai/p/9098286.html