使用scrapy抓取sinanew网站

平时搞爬虫都是自己写函数,写了很长时间,突然听到朋友说,框架很好用,可以来尝试尝试,所以就来了解了解scrapy,但是接触之后,并没有感觉到框架好用,可能是自己使用框架经验还不足吧,也研究了好多天,下边把我的经验跟大家分享一下,有错误的话,欢迎指正!

1,这次抓取的网站是http://news.sina.com.cn/guide/,网上也有这个网站的抓取案例,因为忘了链接,就不附上了

首先创建项目   scrapy  startproject  sinanew

进入创建的项目,cd  sinanew

然后创建spider   scrapy  spiders  sian  'sina.com.cn/guide'

好了,咱们看下项目的目录结构

在浏览器打开网站,得到如下页面:

咱们抓取的内容呢,就是抓取大标题,然后抓取每个大标题下的小标题,最后再抓取小标题中的新闻信息,保存的目录文件格式呢就是  大标题/小标题/文章1,文章2....

明确了抓取思路后,接下来就开始愉快的撸代码吧

首先打开f12调试,找到大标题及其链接的位置,使用xpath进行定位,抓取大标题,附图如下:

再找小标题及其链接,使用xpath进行定位,附图如下:

找到小标题中的文章,定位文章标题,内容,附图如下:

再点击文章标题,进入文章详情,然后定位文章标题及文章内容,进行爬取,附图如下:

好了,分析就到此为止,然后就附上代码吧

先是sina.py

再是items.py文件内容

settings.py文件改动:将请求头信息取消注释,将遵守robottxt协议改为False

pipelines.py内容:

代码如上,接下来就是执行了,按alt + f12  输入scrapy  craw  sina  就可以执行爬取了

猜你喜欢

转载自blog.csdn.net/qq_39928840/article/details/81134304