十、学习爬虫框架WebMagic（六）---去重和增量爬取

编程语言 2019-01-27 13:50:33 阅读次数: 0

一、问题缘由

（一）去重

笔者最近正在做一个爬取小说网站的后台端，遇到一个问题：有些URL重复爬取了。尽管重复爬取的页面不多，但是还是对程序造成了一些困扰，所以尝试去找到一种可以百分百去重的手段。

通过查阅相关资料，知道 Webmagic 去重靠的是Scheduler，默认使用的是QueueScheduler，同时在资料中还看到了 RedisScheduler。我们都知道，Redis 具有天然的单线程特性，不需要使用额外的同步方法，都能保证同一时间仅有一个线程可以访问 Redis，同时查阅 RedisScheduler 源码可知，采用的是 Redis 的 set 进行去重，这样更加保证了一个 Url 只会被爬取一次（PS：因为所有待爬取的 Url 先被放入 Redis 中，然后再被 Spider 取出来进行爬取操作的，而 Redis Set 中就保证了不会出现重复的Url）。

（二）增量

因为小说网站是不断更新的，我需要知道每天新增了哪些小说，更新了哪些章节。但是由于小说很多，章节更是庞大，若是每天来一个全量爬取，没有意义，毕竟新增的小说是少数，大部分还是原有的。所以，就涉及到第二个问题，怎样保证前一天怕取过的小说，今天不再被爬取，只爬取最新更新的。所以就涉及到第二个问题：增量爬取。

二、解决办法

（一）去重

解决办法也相对简单，在虚拟机中启动 redis-server，然后在 spider 中设置 RedisScheduler，具体代码参见如下：

spider = Spider.create(new NovelProcessor())
                .addUrl(NOVEL_WEBSITE_URL)
                .addPipeline(new NovelPipeline())
                .setDownloader(new HttpClientDownloader())
                .setScheduler(new RedisScheduler("192.168.10.130"))
                .thread(10);

备注：关于这里为什么没有设置端口：这是因为 Webmagic 默认提供了的 Redis 端口为6379，若读者不是这个端口，则需要自己单独设置。

（二）增量

增量的解决思路也是类似，因为redis中记录了已经爬取过的Url，再爬去的时候，会自动将已经爬取过的Url去掉，只爬取新更新的Url。

猜你喜欢

转载自blog.csdn.net/panchang199266/article/details/86664845

十、学习爬虫框架WebMagic（六）---去重和增量爬取

python 爬虫实现增量去重和定时爬取实例

python爬虫教程：实现增量去重和定时爬取实例

八、学习爬虫框架WebMagic（四）---使用webmagic+Selenium爬取小说

七、学习爬虫框架WebMagic（三）---webmagic+Selenium爬取动态页面

爬取知乎 -----------------------------使用scrapy-deltafetch实现爬虫增量去重

java爬虫WebMagic框架爬取小姐姐的图片

好用的java爬虫框架webmagic爬取CSDN

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

scrapy利用redis实现url去重与增量爬取

用redis实现scrapy的url去重与增量爬取

Scrapy实现去重，使用Redis实现增量爬取

scrapy 实现去重，存入redis（增量爬取）

六、学习爬虫框架WebMagic（二）---使用注解编写爬虫

(5).去重url，爬取和去重分离

学习使用Java的webmagic框架爬取网页内容

使用WebMagic框架爬取京东数据

Scrapy框架进行去重和增量遇到的问题，求解

scrapy-redis断点续爬，持久化爬虫和url去重，爬取京东图书

Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息

Scrapy-redis增量爬取以及Simhash相似文档的去重

使用scrapy实现去重，使用Redis实现增量爬取

学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面

webmagic爬取图片

九、学习爬虫框架WebMagic（五）---为webmagic添加监控

从头学习爬虫（二十九）实战篇----WebMagic爬CSDN博客 WebMagic入门实战下CSDN，20行代码实现爬取标题

JAVA编程134——webmagic爬虫爬取网页招聘信息

[Java爬虫-WebMagic]-04-处理爬取的结果

[Java爬虫-WebMagic]-05-多级爬取

Java爬虫---使用WebMagic爬取小说数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)