pip安装
安装requests
pip install requests
安装Selenium:
- Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,对于JS渲染的页面,这种方式非常有效
- 推荐pip安装
- pip install selenium(pip install selenium==3.4.3(不跟版本默认安装最新版))
- 验证
- import selenium
安装ChromeDriver:
- 官网:https://sites.google.com/a/chromium.org/chromedriver
- 下载地址:https://chromedriver.storage.googleapis.com/index.html
- 注意选择对应的版本
- 下载完成将其配置到环境变量,windows直接将其放在python的Scripts目录即可,也可以单独配
- 执行命令
程序中测试,开启浏览器空白页,证明配置没有问题
安装GeckoDriver
- 对于FireFox同Chrome一样
- 下载地址:https://github.com/mozilla/geckodriver/releaes
安装PhantomJS
- 使用Chrome和firefox进行网页抓取,有个不便之处,由于一直开着浏览器,爬取网页的过程中浏览器可能一直动来动去,目前新版本Chrome支持无界面模式
- 另一种就是安装一个无界面浏览器PhantomJS,此时抓取程序会在后台运行,不会有窗口
- 官网:http://phantomjs.org
- 官方文档:http://phantomjs.org/quick-start.html
- 下载地址:http://phantomjs.org/download.html
- API接口说明:http://phantomjs.org/api/command-line.html
- 下载完成解压,将bin目录的phantomjs.exe文件加到环境变量中,这里直接拷贝到python的Scripts目录
- 验证:执行后没有浏览器弹窗,输出百度URL
安装lxml
- 它是python的一个解析库,支持HTML和XML解析,支持Xpath解析方式,效率非常高
- pip安装,无报错即成功
- pip install lxml
- 验证:imprt lxml
安装Beautiful Soup
- pip install beautifulsoup4
- 验证:
安装pyquery
- pip install pyquery
- 验证:import pyquery
安装pymysql
验证,导入成功
安装pymongo
验证,导入成功
安装redis
验证,导入成功
安装flask
验证,导入成功
安装django
验证,导图成功
安装jupyter
验证,导入成功