python爬虫<解决URL被重定向无法抓取到数据问题> - 代码天地

python爬虫<解决URL被重定向无法抓取到数据问题>

移动开发 2018-10-30 23:41:08 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Gpwner/article/details/78404192

在写爱奇艺爬虫的时候经常碰到URL被重定向的问题，导致无法请求到数据：

以下是我的代码：

# -*- coding: utf-8 -*-

import scrapy

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
import re


class URLredirect(scrapy.Spider):
    name = 'urlredirect_spider'

    def start_requests(self):
        reqs = []
        url = 'http://www.iqiyi.com/v_19rrk4vf0k.html'
        req = scrapy.Request(url, headers=headers, meta={'url': url})
        reqs.append(req)
        return reqs

    def parse(self, response):
        responseURL = response.url
        requestURL = response.meta['url']
        print '''Response's URL: ''', response.url
        print '''Request's  URL: ''', response.meta['url']
        if str(responseURL).__eq__(requestURL):
            print re.compile('<title>(.*?)</title>').findall(response.body)[0].decode('utf-8')
        else:
            print '--------------------->>>>>>>>Your request is redirect,retrying.....<<<<<-------------------------'
            yield scrapy.Request(url=requestURL, headers=headers, meta={'url': requestURL}, callback=self.parse)

大致意思就是判断如果没被重定向就解析网页，如果被重定向了就重新请求，以下是执行的结果：

这里写图片描述

解决的办法是在Request中将scrapy的dont_filter=True，因为scrapy是默认过滤掉重复的请求URL

这里写图片描述

添加上参数之后即使被重定向了也能请求到正常的数据了
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Gpwner/article/details/78404192

python爬虫<解决URL被重定向无法抓取到数据问题>

python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题，显示301/302状态码

python爬虫的重定向问题

URL重定向问题

爬虫解决网页重定向问题

解决重定向问题

Python爬取淘宝商品失败---解决：淘宝的反爬虫机制 - http重定向问题

Python爬虫遇到重定向问题解决办法汇总

爬虫遇到重定向问题

python爬虫重定向次数过多问题

让人抓狂的 URL 重定向的 Cookie 问题

解决WordPress重定向问题

爬虫遭遇重定向如何解决

爬虫302重定向问题

fiddler无法抓取到手机数据解决办法

AJAX无法重定向解决方法

解决ajax获取到数据放到echarts无法显示的问题

什么是重定向，怎么解决重定向问题

重定向无法传递中文参数的问题

apache2 重定向配置，解决URL中特殊字符（#）被编码问题

PHP URL重定向

URL 重定向

url重定向漏洞

URL重定向

某 url 重定向

URL重定向漏洞，python打造URL重定向漏洞检测脚本

curl抓取页面时遇到重定向的解决方法

关于爬虫模拟美团登陆后，解决302重定向的问题的方法

太多HTTP重定向无法下载问题解决办法

Linux printf 输出重定向输出无法打印问题分析以及解决方法

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)