从源码开始学习Scrapy系列07-genspider指令 - 代码天地

从源码开始学习Scrapy系列07-genspider指令

其他 2018-05-19 18:11:17 阅读次数: 3

前言

genspider用于生成爬虫，与startproject不同的是，它只是生成爬虫模块文件，而startproject是生成整个scrapy项目。默认使用base模板，使用-l参数可以查看可用的所有模板

Available templates:
basic
crawl
csvfeed

xmlfeed

代码调试

进入genspider模块的run方法

获取爬虫名字，目标域名，并生成模块名

name, domain = args[0:2]
module = sanitize_module_name(name)

模块名校验，不能和BOT_NAME的值一样

if self.settings.get('BOT_NAME') == module:
    print("Cannot create a spider with the same name as your project")
    return

判断该name的spider是否存在，如果存在并且没有--force选项，则提示已经存在并退出

try:
    spidercls = self.crawler_process.spider_loader.load(name)
except KeyError:
    pass
else:
    # if spider already exists and not --force then halt
    if not opts.force:
        print("Spider %r already exists in module:" % name)
        print("  %s" % spidercls.__module__)
        return

获取模板文件

扫描二维码关注公众号，回复： 937792 查看本文章

template_file = self._find_template(opts.template)

初始化爬虫模块，生成代码

self._genspider(module, name, domain, opts.template, template_file)

到这里基本就结束了，GG

猜你喜欢

转载自blog.csdn.net/wang1472jian1110/article/details/80364426

从源码开始学习Scrapy系列07-genspider指令

从源码开始学习Scrapy系列06-fetch指令

从源码开始学习Scrapy系列05-edit指令

从源码开始学习Scrapy系列04-check指令

从源码开始学习Scrapy系列08-list指令

从源码开始学习Scrapy系列03-bench指令及指令运行机制

从源码开始学习Scrapy系列01-源码整理/分割/文档编译

scrapy命令：scrapy genspider详解转

从源码开始学习Scrapy系列02-从命令行开启项目入口

爬虫Scrapy指令学习

从零开始分析scrapy源码(一）

【python】——爬虫07scrapy学习记录

Scrapy学习笔记（二）——Scrapy项目创建和常用指令

Spring 源码学习 07：ClassPathBeanDefinitionScanner

开始学习Java源码

Flink系列03: FlinkCEP从源码开始学习-PatternStream与执行模式匹配 - 附代码案例

Flink系列02: FlinkCEP从源码开始学习（个体模式与模式组）

Flink系列01: FlinkCEP从源码开始学习（定义与基本概念）

爬虫 Scrapy 学习系列之一：Tutorial

Zookeeper源码学习系列

scrapy学习第1篇：从阅读scrapy官方文档开始学习

python Scrapy 从零开始学习笔记（一）

从头开始的Java学习Day07

Vue学习系列 -- 自定义指令

Vue学习系列(三)——基本指令

爬虫进阶开始-scrapy

从0开始装Scrapy

从0开始学习 GitHub 系列汇总笔记

Java从0开始学习系列之路(5)

Java从0开始学习系列之路(4)

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

tensorflow 笔记：二（北大）

fork函数详解

unity单利模板

mac下的特殊键位指引（转自apple）

c语言入门-注释

Python--多任务[线程，进程，协程]

深度对抗学习在图像分割和超分辨率中的应用

【转】【Maven】Project configuration is not up-to-date with pom.xml错误解决方法

基本数据类型与常量池

部署自己的Intell项目的经历

每日归档

更多

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)