不用写代码的爬虫:用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影并运用CouchDB使爬取到的数据有序

用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影。

首先我们来到目标站点:https://movie.douban.com/typerank?type_name=动画&type=25&interval_id=100:90&action= ,主要是爬取好于100%-90%的动画片,可以看到一共有103部。往下滑动鼠标可以看到会出现更多的动画片信息,然而我们的地址栏中的URL并没有改变,可见其数据的加载方式是通过发送Ajax请求后获取到的。对于这种数据加载方式,一般我们的爬虫程序会先去找URL的发送规律,而对于爬虫插件Web Scraper,我们只需模拟滑动鼠标,然后填写提取规律即可。操作如下(详细操作请前往我的网盘下载(https://pan.baidu.com/s/1u2QhilxcM_bnBxVnyuUwmA)可查看操作步骤。):
**1.**首先打开chrome浏览器的开发者工具,切换到Web Scraper,点击Create new sitemap创建新项目,输入项目名及初始网址后点击Create sitemap,流程如下图所示:
在这里插入图片描述
2点击Add new selector按钮创建一个元素选择器,该选择器主要是用来选择包含多个数据内容的元素,其会返回每个选择元素作为子选择器的母元素,b并且实现鼠标往下拖动,具体操作及填写内容如下:
在这里插入图片描述
**3.**点击movie按钮后,点击Add new selector按钮创建一个子元素选择器,分别为标题title,排名rank,演员actor,评分score,评论数comment-num。以创建title选择器为例,其他选择器只需修改为相应的id和selector后即可,操作如下图:
在这里插入图片描述
4子选择器全创建好后,点击Sitemap douban并选择Scrape,最后点击Start scraping开始爬虫。爬取时会弹去一个窗口显示进度,待爬虫结束后窗口会关闭,点击refresh即可得到数据,部分结果如下:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44530979/article/details/87387308
今日推荐