从源码开始学习Scrapy系列06-fetch指令 - 代码天地

从源码开始学习Scrapy系列06-fetch指令

其他 2018-05-19 18:11:17 阅读次数: 1

前言

fetch指令是通过scrapy下载器对给定的一个url进行抓取，并将抓取结果进行输出

代码调试

进入fetch模块的run方法

参数校验，如果参数不是1个或者不是标准的url格式，则抛出用法错误：

if len(args) != 1 or not is_url(args[0]):
    raise UsageError()

def is_url(text):
    return text.partition("://")[0] in ('file', 'http', 'https'）

定义输出回调函数：

cb = lambda x: self._print_response(x, opts)

初始化request对象：

request = Request(args[0], callback=cb, dont_filter=True)

如果选项中没有no-redirect选项，即不进行转发，则可处理的状态列表中包含除了300到400的所有状态码：

if not opts.no_redirect:
    request.meta['handle_httpstatus_list'] = SequenceExclude(range(300, 400))

否则全部可以包含，需要转发的请求有请求包自动完成：

request.meta['handle_httpstatus_all'] = True

初始化赋值为自带简易爬虫：

spidercls = DefaultSpider

初始化爬虫加载器：

spider_loader = self.crawler_process.spider_loader

如果给定了爬虫选项，则根据给定的爬虫进行爬取，否则根据request url来查找匹配爬虫：

if opts.spider:
    spidercls = spider_loader.load(opts.spider)
else:
    spidercls = spidercls_for_request(spider_loader, request, spidercls)

使用上述判定的爬虫对给定的url进行抓取，只需要传递start_requests即可：

self.crawler_process.crawl(spidercls, start_requests=lambda: [request])

爬虫开启：

self.crawler_process.start()

到这里就结束了，最后俩步骤是调度的核心，我们也不做细讲，后面会具体谈到。

猜你喜欢

转载自blog.csdn.net/wang1472jian1110/article/details/80361292

从源码开始学习Scrapy系列06-fetch指令

从源码开始学习Scrapy系列08-list指令

从源码开始学习Scrapy系列07-genspider指令

从源码开始学习Scrapy系列05-edit指令

从源码开始学习Scrapy系列04-check指令

从源码开始学习Scrapy系列03-bench指令及指令运行机制

从源码开始学习Scrapy系列01-源码整理/分割/文档编译

从源码开始学习Scrapy系列02-从命令行开启项目入口

爬虫Scrapy指令学习

Git学习06-----pull, fetch区别

从零开始分析scrapy源码(一）

fetch源码

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

IMAP的fetch指令的讲解

开始学习Java源码

Spring 源码学习 06：AnnotatedBeanDefinitionReader

Flink系列03: FlinkCEP从源码开始学习-PatternStream与执行模式匹配 - 附代码案例

Flink系列02: FlinkCEP从源码开始学习（个体模式与模式组）

Flink系列01: FlinkCEP从源码开始学习（定义与基本概念）

爬虫 Scrapy 学习系列之一：Tutorial

JS学习系列 06 – 变量对象

游标fetch源码分析

java.security 源码学习06 PrivilegedAction

Zookeeper源码学习系列

scrapy学习第1篇：从阅读scrapy官方文档开始学习

python Scrapy 从零开始学习笔记（一）

2019/06/28（1）开始学习C#

【spring源码系列-06】refresh中obtainFreshBeanFactory方法的执行流程

Vue学习系列 -- 自定义指令

Vue学习系列(三)——基本指令

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)