Scrapy框架爬虫学习--1

写在前面:今天上午把手势控制播放器的Demo弄完了。可以学习自己的东西了。因为要找爬虫的实习,所以学习一下Scrapy框架的爬虫。这个和之前做的脚本爬虫是对应的。不过好像是说Scrapy的分布式爬虫更加牛逼,没有不可以爬的网站。

1. 安装


2. 来看一下基本的操作。

在终端下输入  scrapy shell url,就相当于之前的Request请求


请求之后可以看一下 response,可以看到200请求成功。


这时候View(response),就可以用系统默认浏览器打开刚刚返回的数据。        至此就获得了源码,就是response。

下面看一下用Xpath获取元素。这个也很简单,用chrome的开发者工具,选中目标元素,右键就可以copy其Xpath。

然后在终端输入 response.xpath('对应的xpath路径').extract(),就会返回对应的元素。  注意这里路径是单引号!!!(应该是版本问题)


然后通过分析一下网页源码的标签就可以看到,用id是不可能得到所有的价格信息的。这里用标签中的类名class 来筛选所有的。将xpth路径替换为//*[@class="f-list-item ershoufang-list"]/dl/dd[5]/div[1]/span[1],注意这里后面的不变(代表着相应的价格元素位置关系不变)。之后就可以匹配到所有的价格信息。


可以看到这里用Xpath来获取这些元素信息非常方便,不用去特别关注那些标签的关系,xpath直接就帮你定位好了,只需换前面的大的类定位即可。             所以说,要会更多的方法,不同的方法在不同的情况下,会有意想不到的方便。

猜你喜欢

转载自blog.csdn.net/Mike_Shine/article/details/80665461