3. Spiders - 代码天地

3. Spiders

其他 2018-06-08 16:37:50 阅读次数: 10

Scrapy的核心Spider类。配置需要获取的网站url,以及分析网页的地方。

Spider的作用如下：

以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生成response，并作为参数传给该回调函数。

spider中初始的request是通过调用 start_requests() 来获取的。 start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request 。
在回调函数内分析返回的(网页)内容，返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数(函数可相同)。
在回调函数内，您可以使用选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容，并根据分析的数据生成item。
最后，由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。

Spider参数

　　通过scrapy -a 传参数，在spider构造函数中获取参数

　　scrapy crawl myspider -a category=electronics

import scrapy

class MySpider(Spider):
    name = 'myspider'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.start_urls = ['http://www.example.com/categories/%s' % category]

　Spider类：

　　name:定义spider名字的字符串(string)，必须是唯一的。

　allowed_domains(非必须):

　　包含了spider允许爬取的域名(domain)列表(list)。当 OffsiteMiddleware 启用时，域名不在列表中的URL不会被跟进。

　start_urls：

　　当没有制定特定的URL时，spider将从该列表中开始进行爬取。

　

猜你喜欢

转载自www.cnblogs.com/gcm688/p/6495368.html

3. Spiders

爬虫 Scrapy 学习：Spiders

spiders --- top17173

Scrapy框架----06Spiders

Scrapy框架之Spiders类理解

Scrapy学习篇（五）之Spiders

Spider爬虫框架之Spiders模块

【Codeforces 111C】Petya and Spiders

Codeforces526G Spiders Evil Plan

5.spiders(文件夹)

spiders:你好污啊

CF120F Spiders 题解

Python 爬虫框架Scrapy Spiders学习

Scrapy-spiders下项目运行方法

CF526G Spiders Evil Plan

Scrapy学习笔记-Scrapy入门Spiders

CF111C Petya and Spiders

3.

scrapy入门实战练习（二）----调试(Debugging)Spiders

爬虫框架-Scrapy项目（博客园spiders文件）

Scrapy——基本用法（命令行工具、Item、Spiders）

Male Spiders Sacrifice Themselves Industrial IoT Router/Gateway to Mates for the Kids

Python之爬虫（十七） Scrapy框架中Spiders用法

【Scrapy 框架】「版本2.4.0源码」爬虫页（Spiders）详解篇

3.文件操作

3. 推流

3.聚合

3. 类的扩展

3.快速起步

3.表格组件

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)