scrapy发起post请求,模拟登录github

编程语言 2023-04-09 08:53:46 阅读次数: 0

文章目录

一.使用scrapy模拟抓取百度翻译json数据
二.scrapy模拟登录github
- - 抓取思路

一.使用scrapy模拟抓取百度翻译json数据

爬虫文件中的代码

import scrapy
import json

class TranslateSpider(scrapy.Spider):
    name = 'translate'
    # allowed_domains = ['xx.com']
    # start_urls = ['http://xx.com/'] #这里发起的是post请求
    def start_requests(self):
        data = {
    
    
            'kw': 'spide'
        }
        yield scrapy.FormRequest(url='https://fanyi.baidu.com/sug',callback=self.parse,formdata=data)


    def parse(self, response):
        obj = json.loads(response.text)
        value= obj['data'][0]['v']
        print(value)
        pass

start_requests(self) 是一个专门发送post请求的一个方法

data是发起post请求需要的表单数据

scrapy.FromRequest()这个对url发起post请求,里面需要填入url地址,callback函数,data表单

这里最后有一个json,导入json库,就是因为这个网页返回的数据是json数据,然后需要先通过json.loads()方法拿到obj对象,最后通过字典的key获取相应value值就好了

二.scrapy模拟登录github

1.分析网页
在这里插入图片描述

这里可以看到表单需要的数据在登录界面的源代码中,使用input隐藏标签将表单数据隐藏
在这里插入图片描述

抓取思路

1.首先我们需要对登录界面发起一个get请求,拿到我们form表单中所需的name属性值

在这里插入图片描述

2…拿到表单数据后,利用生成器yield 对github发起post请求,并且传入表单数据
在这里插入图片描述

3,将返回的github源码写入一个html文件中
在这里插入图片描述
4.创建scapy项目启动文件运行爬虫文件

5.拿到github数据的网页源码

在这里插入图片描述

看到我们上面是localhost登录说明我们已经登陆成功了,这里因为没有直接进入github页面是因为我好久没有登陆github了,你直接输入你邮箱接收的验证码就好了

创建scrapy项目和爬虫文件和基本的配置就不写了,不清楚可以看我scrapy的第一篇文章

猜你喜欢

转载自blog.csdn.net/qq_63713328/article/details/127779889

scrapy发起post请求,模拟登录github

Scrapy模拟登录GitHub

scrapy 模拟登录github

PostMan 模拟AJAX发起POST请求 SpringMVC

loadrunner 发起post请求

afnetworking发起post请求

day01 post请求登录github

python模拟get/post请求登录

Python - 发起请求 get post

scrapy爬虫框架实例一某平台信息（两次post请求的发起）

scrapy之发送POST请求（人人网简单登录）

scrapy模拟ajax的post请求，爬取动态异步网页

scrapy发送POST请求

scrapy之POST请求

scrapy 发post请求

HttpClient模拟浏览器登录后发起请求（携带Cookie发请求）

程序之中模拟表单发起GET,POST请求以及实现文件上传

原生Javascript使用fetch发起请求_模拟get|post|文件流下载等

AngularJS发起$http.post请求

Vue中使用axios发起post请求

C# 发起Get和Post请求

vue-resource 发起get、post请求

php发起post请求，不使用curl

mysql通过udf发起get、post请求

scrapy(4)模拟登录

scrapy模拟登录

scrapy模拟用户登录

Scrapy模拟表单登录

Scrapy--模拟登录

Scrapy模拟登录小记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)