不用写代码的爬虫：用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影并运用CouchDB使爬取到的数据有序

用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影。

首先我们来到目标站点：https://movie.douban.com/typerank?type_name=动画&type=25&interval_id=100:90&action= ，主要是爬取好于100%-90%的动画片，可以看到一共有103部。往下滑动鼠标可以看到会出现更多的动画片信息，然而我们的地址栏中的URL并没有改变，可见其数据的加载方式是通过发送Ajax请求后获取到的。对于这种数据加载方式，一般我们的爬虫程序会先去找URL的发送规律，而对于爬虫插件Web Scraper，我们只需模拟滑动鼠标，然后填写提取规律即可。操作如下（详细操作请前往我的网盘下载(https://pan.baidu.com/s/1u2QhilxcM_bnBxVnyuUwmA)可查看操作步骤。）：
**1.**首先打开chrome浏览器的开发者工具，切换到Web Scraper，点击Create new sitemap创建新项目，输入项目名及初始网址后点击Create sitemap，流程如下图所示：
在这里插入图片描述
2点击Add new selector按钮创建一个元素选择器，该选择器主要是用来选择包含多个数据内容的元素，其会返回每个选择元素作为子选择器的母元素，b并且实现鼠标往下拖动，具体操作及填写内容如下：

**3.**点击movie按钮后，点击Add new selector按钮创建一个子元素选择器，分别为标题title，排名rank，演员actor，评分score，评论数comment-num。以创建title选择器为例，其他选择器只需修改为相应的id和selector后即可，操作如下图：
在这里插入图片描述
4子选择器全创建好后，点击Sitemap douban并选择Scrape，最后点击Start scraping开始爬虫。爬取时会弹去一个窗口显示进度，待爬虫结束后窗口会关闭，点击refresh即可得到数据，部分结果如下：

不用写代码的爬虫：用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影并运用CouchDB使爬取到的数据有序

用chrome浏览器的爬虫插件Web Scraper爬取豆瓣动画片电影。

猜你喜欢