scrapy框架start_urls以及sart_requests分析 - 代码天地

scrapy框架start_urls以及sart_requests分析

其他 2020-01-30 10:45:48 阅读次数: 0

start_urls

url列表。当没有指定特定的url时，spider将从该列表中开始抓取。因此，第一个被获取到的页面的url僵尸该列表之一。后续的url将会从获取的数据中提取。

start_requests

该方法必须返回一个可迭代对象（iterable）。该对象包含了spider用于抓取的第一个Request。

当spider起订抓取并且未指定url时，该方法被调用。当指定了url时，make_requests_from_url()将被调用来创建request对象。该方法仅仅会被scrapy调用一次，因此您可以将其实现为生成器。

该方法的默认实现是使用start_urls的url生成request。

如果您想要修改最初抓取某个网站的request对象，您可以重写（override）该方法。例如，如果您需要在启动时以POST登录某个网站，你可以这么写：

def start_requests(self): 
return [scrapy.FormRequest
("http://www.example.com/login", formdata={'user': 'john', 'pass': 'secret'}, 
callback=self.logged_in)]

def logged_in(self, response): 
# here you would extract links to follow and return Requests for 
# each of them, with another callback
pass

make_requests_from_url(url):
该方法接受一个url并返回用于抓取的request对象。该方法在初始化request时被start_requests()调用，也被用于转化url为request。

默认未被重写的情况下，该方法的request对象中，parse（）作为返回函数，dont_filter参数也被设置为开启。

爬不下来就自闭

发布了65 篇原创文章 · 获赞 41 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43870646/article/details/90644592

scrapy框架start_urls以及sart_requests分析

Scrapy之start_urls、爬虫中间件之深度，优先级以及源码流程

scrapy-redis分布式爬虫如何在start_urls中添加参数

数据采集: 让scrapy-redis的start_urls支持优先级

Scrapy start_requests

scrapy框架利用start_requests方法改写post请求

Scrapy框架--Requests对象

scrapy框架分析

Scrapy框架原理分析

Scrapy框架——安装以及新建scrapy文件

Requests爬虫和scrapy框架多线程爬虫

python爬虫学习笔记-scrapy框架之start_url

ValueError: urls must start with a leading slash

Flask ValueError: urls must start with a leading slash

ValueError: urls must start with a leading slash的处理

Django框架——路由(urls)层

flask框架--urls和视图

爬虫系列爬虫的Robots协议请求库之requests库解析库beautifulsoup 爬取汽车之家新闻搭建免费代理池验证码破解模拟自动登录网站 xpath路径 selenium简介与安装 selenium的使用 Scrapy 架构介绍 scrapy 框架的安装与启动 scrapy项目架构与配置文件 Scrapy中response属性以及内容提取爬取数据并解析 Scrapy 持久化

scrapy专题（八）：scrapy-redis 框架分析

Scrapy or Requests提交表单

Scrapy-requests模块

scrapy和requests的优劣

对urllib、requests、scrapy的总结

Scrapy框架 Scrapy框架

Scrapy框架的学习(7. 了解Scrapy中的debug信息以及Scrapy shell的使用)

Scrapy框架的学习(1.scrapy的概念以及scrapy的工作流程)

URLs

智联招聘抓取---scrapy框架和requests库两种方式实现

【Scrapy 框架】「版本2.4.0源码」请求和回应（Requests and Responses）详解篇

ab输出信息解释以及Failed requests原因分析

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)