python 爬虫(三) spider类详解 - 代码天地

python 爬虫(三) spider类详解

其他 2018-07-12 18:28:44 阅读次数: 0

Spider就是定义爬取的动作及分析网站的地方。

spider原理
以初始的URL**初始化Request**，并设置回调函数。当该request**下载完毕并返回时，将生成**response ，并作为参数传给该回调函数。
初始化request —> start_requests()
start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request 。
回调处理parse(self,response)
以使用选择器(Selectors)或者BeautifulSoup 来分析网页内容，返回 Item 对象或者 Request
返回的Request对象之后scrapy 会跟进处理进入下一轮的循环
返回item 会进Item Pipeline 处理数据

4.spider 属性方法

name
定义spider名字的字符串
allowed_domains
可选。包含了spider允许爬取的域名(domain)列表(list)
start_urls
URL列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取
start_requests()
当spider启动爬取并且未制定URL时，该方法被调用。可用于批量生成初始url
parse()
当response没有指定回调函数时，该方法是Scrapy处理下载的response的默认方法。
log()
使用 scrapy.log.msg() 方法记录(log)message。
closed()
当spider关闭时，该函数被调用。

猜你喜欢

转载自blog.csdn.net/lkjasdgfh/article/details/80361285

python 爬虫(三) spider类详解

Python爬虫：scrapy框架Spider类参数设置

爬虫原理详解spider

Python分布式爬虫详解（三）

net spider（python 网络爬虫）

学习爬虫1之python学习spider

SVG反爬虫绕过-Python Spider

SVG反爬虫绕过-Python Spider

Python爬虫学习（三）

python爬虫（三）

Python 爬虫三

python爬虫系列（三）

python 爬虫实例（三）

Python爬虫学习三

Python爬虫之三

python爬虫入门（三）

Python爬虫——案例（三）

Python——爬虫（三）

python爬虫三

python爬虫学习(三)

python之scrapy(三)spider的用法

Spider 爬虫

python爬虫（三）xpath与lxml

python定向爬虫实例（三）

Python爬虫学习笔记（三）

【等待完善】爬虫之模拟登录三类型爬虫场景总结【基于Python+selenium总结】

python爬虫问题详解

PYTHON爬虫（urllib详解）

python爬虫-PyQuery详解

Python爬虫：数据抓取工具及类库详解

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)