爬虫页面登录:
1. 通过抓包直接模拟登录
2. selenium+webdriver的方式
有的网站直接登录难度很大,采用selenium就相对轻松一些。虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。
python爬虫使用selenium+webdriver:
1. 对于chrome,要增加chromedriver驱动,http://chromedriver.storage.googleapis.com/index.html 下载对应的版本的chromedriver,放置在chrome目录(C:\Users\19300\AppData\Local\Google\Chrome\Application)和python目录(D:\anaconda\Anaconda3\Scripts)
2. 使用python代码模拟浏览器行为:
from selenium import webdriver
chrome_obj = webdriver.Chrome()
result = chrome_obj.get("https://www.baidu.com")
可参考:
https://www.cnblogs.com/sesshoumaru/p/python-selenium-webdriver.html