吴裕雄--天生自然PYTHON爬虫:使用Selenium爬取大型电商网站数据

用python爬取动态网页时,普通的requests,urllib2无法实现。例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests、urllib2无法抓取这些动态加载的内容,此时就需要使用Selenium了。

 使用Selenium需要选择一个调用的浏览器并下载好对应的驱动,我使用的是Chrome浏览器。

将下载好的chromedrive.exe文件复制到系统路径:E:\python\Scripts下,如果安装python的时候打path勾的话这个目录就会配置到系统path里了,如果没有的话,请手动把这个路径添加到path路径下。

 下载的浏览器驱动也要看清楚对应自己浏览器版本的,如果驱动与浏览器版本不对是会报错了。

 chromedriver与chrome浏览器对照表参考:
https://blog.csdn.net/huilan_same/article/details/51896672

国内不能直接访问Chrome官网,可以在ChromeDriver仓库中下载:http://chromedriver.storage.googleapis.com/index.html

 

 我的浏览器需要下载的是倒数第三个,请读者根据自己的电脑和浏览器的版本实际情况下载;

放到上面的python那个安装文件夹后,我记得也是需要放到chrome浏览器安装目录下的

查找chrome安装路径

 把下载的驱动放到这个路径下

 然后也把chrome浏览器的安装路径添加到path路径中。

 配置好之后,实现爬虫的代码如下:

(正在更新中...)

猜你喜欢

转载自www.cnblogs.com/tszr/p/12200684.html