Scrapy去重 - 代码天地

Scrapy去重

其他 2019-10-26 00:17:27 阅读次数: 0

一、原生

1、模块

from scrapy.dupefilters import RFPDupeFilter

2、RFPDupeFilter方法

a、request_seen

核心：爬虫每执行一次yield Request对象，则执行一次request_seen方法

作用：用来去重，相同的url只能访问一次

实现：将url值变成定长、唯一的值，如果这个url对象存在，则返回True表名已经访问过，若url不存在则添加该url到集合

1)、request_fingerprint

作用：对request(url)变成定长唯一的值，如果使用md5的话，下面的两个url值不一样

注意：request_fingerprint() 只接收request对象

from scrapy.utils.request import request_fingerprint
from scrapy.http import Request

#
url1 = 'https://test.com/?a=1&b=2'
url2 = 'https://test.com/?b=2&a=1'
request1 = Request(url=url1)
request2 = Request(url=url2)

# 只接收request对象
rfp1 = request_fingerprint(request=request1)
rfp2 = request_fingerprint(request=request2)
print(rfp1)
print(rfp2)

if rfp1 == rfp2:
    print('url相同')
else:
    print('url不同')

2)、request_seen

def request_seen(self, request):
    # request_fingerprint 将request(url) -> 唯一、定长
    fp = self.request_fingerprint(request)
    if fp in self.fingerprints:
        return True        # 返回True，表明已经执行过一次
    self.fingerprints.add(fp)

b、open

父类BaseDupeFilter中的方法，爬虫开始时，执行

def open(self):
    # 爬虫开始
    pass

c、close

爬虫结束时执行

def close(self, reason):
    # 关闭爬虫时执行
    pass

d、log

记录日志

def log(self, request, spider):
    # 记录日志
    pass

e、from_settings

原理及作用：和pipelines中的from_crawler一致

@classmethod
def from_settings(cls, settings):
    return cls()

二、自定义

待续

1、配置文件

2、自定义去重类(继承BaseDupeFilter)

猜你喜欢

转载自www.cnblogs.com/wt7018/p/11741458.html

scrapy去重原理

Scrapy 去重

scrapy的去重原理

Scrapy去重

python scrapy d 去重

Scrapy框架的去重机制

Scrapy 去重源码分析

浅谈scrapy去重机制

scrapy 去重策略修改

scrapy基础框架 pipelines 去重

python - scrapy 爬虫框架 ( redis去重 )

scrapy--基于Redis的Bloomfilter去重

Scrapy-redis组件去重

scrapy去重与scrapy_redis去重与布隆过滤器

Scrapy---操作cookie、去重、中间件

scrapy利用redis实现url去重与增量爬取

用redis实现scrapy的url去重与增量爬取

Scrapy实现去重，使用Redis实现增量爬取

scrapy+redis去重实现增量抓取

Bloom Filter替换Scrapy-Redis集合去重

Scrapy框架进行去重和增量遇到的问题，求解

Scrapy框架(持久化,去重,深度控制,cookie)

使用scrapy-deltafetch实现爬虫增量去重

scrapy-redis 自定义去重规则

scrapy 实现去重，存入redis（增量爬取）

scrapy-redis数据去重与分布式框架

Scrapy之dupefilters(去重)以及源码分析/depth

scrapy分布式+指纹去重原理

Scrapy基于scrapy_redis分布式爬虫的布隆去重

去重

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)