【Scrapy框架实现发送POST请求】 - 代码天地

【Scrapy框架实现发送POST请求】

编程语言 2019-01-13 15:23:48 阅读次数: 0

版权声明：本文为博主原创文章，各路大佬可放心转载。 https://blog.csdn.net/qq_41964425/article/details/86412250

实现发送POST请求

在爬虫文件中，我们一般不需要手动的对start_urls列表中的起始url发送请求，因为爬虫文件中的爬虫类继承了父类Spider，Spider类中的start_requests方法会自动向起始url列表中的所有url发起请求。

但需要注意的是，start_requests方法发起的是GET请求，如果我们想发起POST请求，则需要在子类中重写该方法。

下面我们将重写start_requests方法，来实现POST请求的发送：

# -*- coding: utf-8 -*-
import scrapy


class Test01Spider(scrapy.Spider):
    name = 'test01'
    start_urls = ['https://fanyi.baidu.com/']

    def parse(self, response):
        print(response)  # <200 https://fanyi.baidu.com/sug>

    # 重写父类方法，实现发送POST请求
    def start_requests(self):
        post_url = 'https://fanyi.baidu.com/sug'  # 百度翻译
        data = {'kw': '好'}  # 你要翻译的内容
        yield scrapy.FormRequest(url=post_url, formdata=data, callback=self.parse)
        # scrapy.FormRequest()：用于发起POST请求
        # 参数callback用于指定回调函数，即解析的方法

五大核心组件工作流程

五大核心组件工作流程图

1. 引擎 Scrapy
用于处理整个系统的数据流，触发事务（框架核心）。

2. 调度器 Scheduler
用于接收引擎发过来的请求，加入队列中，并在引擎再次发起请求的时候返回。可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址。

3. 下载器 Downloader
用于下载网页内容，并将网页内容返回给蜘蛛（Scrapy下载器是建立在twisted这个高校的异步模型上的）。

4. 爬虫 Spiders
爬虫主要是干活的，用于从特定的网页中爬取自己想要的信息，即所谓的实体(Item)。用于也可以从中提取出链接，让Scrapy继续抓取下一个页面。

5. 管道 Pipeline
负责处理爬虫从网页中抽取的实体，主要功能是持久化实体、验证实体的有效性、清楚不需要的信息。当页面被爬虫解析后，将发送到项目管道，并经过几个特定的次序处理数据。

猜你喜欢

转载自blog.csdn.net/qq_41964425/article/details/86412250

【Scrapy框架实现发送POST请求】

Scrapy 框架手动发送请求 POST 请求的发送

scrapy发送POST请求

scrapy之发送POST请求

scrapy框架----post请求方式

python使用scrapy发送post请求的坑

Scrapy 之如何发送post请求

【Python_Scrapy学习笔记（十二）】基于Scrapy框架实现POST请求爬虫

java实现发送post请求

爬虫scrapy框架（7）——post请求

scrapy之发送POST请求（人人网简单登录）

如何利用scrapy发送post请求?(以微博为例)

scrapy-redis源码解读之发送POST请求

python基础编程：python使用scrapy发送post请求的坑

【python爬虫】scrapy入门8:发送POST请求

scrapy-redis爬虫如何发送POST请求

Scrapy框架之-请求传参与post请求处理

java实现httpclient发送post请求

QT实现发送get和post请求

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

scrapy之POST请求

scrapy 发post请求

scrapy框架利用start_requests方法改写post请求

Scrapy框架之递归解析和post请求

爬虫-scrapy框架之递归解析和post请求

12.scrapy框架之递归解析和post请求

03.scrapy框架之递归解析和post请求

scrapy框架的递归解析和post请求方式

Scrapy 遇到的小坑_关于payload参数_scrapy第一次发送POST请求

scrapy请求发送解析

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)