Spider爬虫框架之Spiders模块 - 代码天地

Spider爬虫框架之Spiders模块

其他 2018-08-21 00:01:22 阅读次数: 0

Spiders

Spiders 是一些爬虫类的集合，这些爬虫定义了爬哪些网站、如何去爬这些网站以及如何去从页面抽取结构化数据。

换句话说，Spiders是你定义用于为特定网站（或者在某些情况下是一组网站）抓取和解析页面的自定义行为的地方。

对于爬虫来说，在爬取周期中会经历以下事情：

1，首先生成抓取第一个URL的初始Requests，然后指定一个回调函数，使用从这些请求下载的响应来调用回调函数。

第一个执行请求通过调用start_requests（）方法获得，该方法默认情况下为start_urls和parse方法中指定的URL生成Request作为回调函数。

2，在回调函数中，解析响应（网页），并返回带提取数据的dicts，Item对象，Request对象或这些对象的迭代。

这些请求还将包含一个回调（可能是相同的），然后由Scrapy下载，然后通过指定的回调处理它们的响应。

3，在回调函数中，通常使用选择器Selectors（但您也可以使用BeautifulSoup，lxml或您喜欢的任何机制）解析页面内容，并使用解析的数据生成项目。

4，最后，从爬虫返回的项目通常会持久化到数据库（在某些Pipeline中）或使用Feed导出写入文件。

尽管这个周期适用于（或多或少）任何类型的爬虫，但为了不同的目的，有不同类型的默认爬虫捆绑到了Scrapy中。

参考链接：https://docs.scrapy.org/en/latest/topics/spiders.html

猜你喜欢

转载自blog.csdn.net/u014108439/article/details/79761827

Spider爬虫框架之Spiders模块

Spider爬虫框架之Selectors

Python之爬虫（十七） Scrapy框架中Spiders用法

Python 爬虫框架Scrapy Spiders学习

Python爬虫从入门到成妖之5-----Scrapy框架中Spiders用法

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

scrapy简单爬虫（scrapy.Spider）与深度爬虫（spiders.CrawlSpider）的对比

Python笔记：爬虫框架Scrapy之Spider的原理

Python笔记：爬虫框架Scrapy之Spider Middleware的使用

scrapy框架【spider】 scrapy框架之spider

Scrapy框架之Spiders类理解

爬虫框架Scrapy的组件spider

scrapy框架之spider

爬虫框架-Scrapy项目（博客园spiders文件）

【Scrapy 框架】「版本2.4.0源码」爬虫页（Spiders）详解篇

Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用

爬虫 Scrapy 学习：Spiders

scrapy爬虫框架多个spider指定pipeline

从头学习爬虫（十七）重构篇----WebMagic框架分析之spider

python爬虫框架scarpy之AttributeError: module 'scrapy' has no attribute 'spider'

第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取

学习爬虫1之python学习spider

爬虫框架Requests 之(四) --- Requests模块

爬虫框架urllib 之(三) --- 模块使用

Spider 爬虫

爬虫Spider 01 - 网络爬虫概述 | 爬虫请求模块 | URL地址编码模块 | 正则解析模块

Spider 好用模块记录最新的爬虫工具requests-html

爬虫Spider 03 - requests模块 | xpath解析 | lxml解析库

Scrapy框架----06Spiders

Python爬虫：scrapy框架Spider类参数设置

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)