Scrapy 学习笔记 - 爬虫类 Spider - 代码天地

Scrapy 学习笔记 - 爬虫类 Spider

其他 2019-02-22 14:51:11 阅读次数: 0

参考 http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html

Spider 是一个爬虫类，定义如何爬去网页或网站。可以继承Spider类，进行自定义。

形式如下：

import scrapy
class myFirstSpider(scrapy.Spider):
    name = "myFirst_Spider_Task"  #必须且唯一
    allowed_domains = ["baidu.com"]
    start_urls = ["http://www.baidu.com",]
    
    def parse(self, response):
        filename = response.url.split("/")[-2]
        with open(filename, 'wb') as f:
            f.write(response.body)

一个Spider类的name，必须且是唯一的。在命令行交互环境中，进入项目目录，可以输入如下命令启动Spider

scrapy crawl spider的name （例如 myFirst_Spider_Task）

allowed_domains ，可选参数，类型是列表（list）。定义了spider允许爬取的域名。默认这个参数是不使用的。要使这个参数有效，需要把OffsiteMiddleware关闭，在setting.py中添加SPIDER_MIDDLEWARES的值

SPIDER_MIDDLEWARES = {
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware':None,  
或者是
    'scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware': None,
}

因为scrapy版本不一样，上面两个值需要自行选择。我的版本使用的是scrapy.spidermiddlewares.offsite.OffsiteMiddleware

start_urls，URL列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取。因此，第一个被获取到的页面的URL将是该列表之一。后续的URL将会从获取到的数据中提取。

parse函数，当response没有指定回调函数时，该方法是Scrapy处理下载的response的默认方法。这里可以做一些数据上处理

Spider类还有其他函数可以覆写

start_requests

make_requests_from_url

log

closed

猜你喜欢

转载自blog.csdn.net/holdsky/article/details/79359837

Scrapy 学习笔记 - 爬虫类 Spider

4.5. scrapy两大爬虫类_Spider

scrapy学习之spider

[ Python ] 爬虫类库学习之 re 正则解析

[ Python ] 爬虫类库学习之 xpath

[ Python ] 爬虫类库学习之 requests

[ Python ] 爬虫类库学习之 bs4

【spider】爬虫学习路线-精通Scrapy网络爬虫

Python笔记：爬虫框架Scrapy之Spider的原理

Python笔记：爬虫框架Scrapy之Spider Middleware的使用

爬虫框架Scrapy的组件spider

【spider】满分的scrapy学习资源Learning Scrapy精通Python爬虫框架Scrapy

scrapy 4 学习 crawl spider

七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式

Scrapy——Spider

Scrapy: Spider

Redisspider的爬虫和scrapy.spider的区别

scrapy爬虫框架多个spider指定pipeline

爬虫类型

scrapy笔记【2】[Spider类介绍]

Scrapy学习-25-Scrapyd部署spider

python爬虫(十三)-------------------HelloWorld级scrapy(scrapy spider组件)

python爬虫Scrapy框架笔记分享10-Spider 下载中间件(Middleware)

Scrapy学习笔记-使用signals来监控spider的状态

Spider学习笔记（九）:Scrapy框架的基础操作

scrapy笔记一（scrapy.Spider爬取文字并储存）

【爬虫学习笔记day57】6.7. scrapy-redis的官方文档源码分析参考：Spider

scrapy框架【spider】 scrapy框架之spider

Spider学习笔记（六）:爬虫部署

Scrapy爬虫入门教程四 Spider（爬虫）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)