scrapy rule follow的理解和应用 - 代码天地

scrapy rule follow的理解和应用

其他 2018-12-22 19:09:10 阅读次数: 0

follow 是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进。如果callback 为None,follow 默认设置为 True ，添加回调函数callback后为 False,不跟踪

一句话解释:follow可以理解为回调自己的回调函数

举个例子,如百度百科,从任意一个词条入手,抓取词条中的超链接来跳转,rule会对超链接发起requests请求,如follow为True,scrapy会在返回的response中验证是否还有符合规则的条目,继续跳转发起请求抓取,周而复始,如下图

代码实现:

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders.crawl import Rule, CrawlSpider


class BaiDuSpider(CrawlSpider):
    name = "baidu_spider"
    start_urls = ['https://baike.baidu.com/item/Python/407313?fr=aladdin']

    '''获取url'''
    rules = (
        Rule(LinkExtractor(restrict_xpaths='//*[@class="para"]//a')),
    )

    print(rules)

ps: 爬取百度百科时需要在setting中设置不遵守robots规则: ROBOTSTXT_OBEY = False

猜你喜欢

转载自blog.csdn.net/qq_18525247/article/details/82743614

scrapy rule follow的理解和应用

scrapy--Rule()与LinkExtractor()函数理解

scrapy 关于 rule, 关于多页

scrapy 使用rule LinkExtractor提取链接

python3 scrapy 进阶（一）Rule ， Link Extractors 的使用

爬虫入门之Scrapy框架基础rule与LinkExtractors(十一)

Scrapy CrawlSpider中Rule中写allow的问题！

Scrapy中scrapy.Request和response.follow的区别

scrapy框架scrapy.Reqest和response.follow的区别

正则sub应用 any-rule插件

Scrapy之奇葩坑你爹:TypeError: 'Rule' object is not iterable

scrapy的应用

使用 WebSphere ILOG JRules 开发保险应用系统【六】——同步BOM、Rule项目到teamserver，并部署Rule到bres上

app.add_url_rule 和 app.route

linux中路由策略rule和路由表table

Scrapy——理解HTML和XPath

sonar rule

Lumen rule

AD rule

Python的Scrapy的学习和应用

scrapy初始和简单应用

对Scrapy框架的理解

爬虫scrapy的结构理解

scrapy框架的理解

scrapy 安装及应用

scrapy中selenium的应用

Hbase在Scrapy中的应用

selenium在scrapy中的应用

scrapy 【meta】的高级应用

Scrapy框架的应用

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)