scrapy中shell出现403解决方案 - 代码天地

scrapy中shell出现403解决方案

其他 2019-03-14 09:40:59 阅读次数: 0

我们使用scrapy shell来进行调试是很方便的，但是有时会出现403错误的问题，我们来解决这个问题：

出现403，表示网站拒绝提供服务

因为有的网站有反爬机制，当你使用scrapy shell的时候是以是scrapy爬虫的标识进行访问网站的，这时候网站会拒绝为爬虫提供服务，这时候就会返回403错误

下面列举三个方案来解决这个问题，三个方案的原理都是一样的，即修改user-agent的值，使用浏览器的标识来对网站进行访问，这样网站就不会拒绝服务了

方案一：只治标.

在使用scrapy shell的时候，在其后面加上-s USER_AGENT='Mozills/5.0’

eg: 我们要对百度进行scrapy shell的时候

scrapy shell http://www.baidu.com -s USER_AGENT='Mozills/5.0'

成功！！！

方案二：半治标半治本.

修改scrapy项目里的settings.py USER_AGENT

把settings.py里的USER_AGENT的属性启用并修改

修改前：

#USER_AGENT = 'yi (+http://www.yourdomain.com)'

修改后：

USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

再次使用scrapy shell：

（注意：这里的scrapy shell只能在项目里使用，直接在cmd中使用是不生效的，这也是为什么说半治标的原因）

scrapy shell https://movie.douban.com/top250

我们看一下返回的信息:

response   <200 https://movie.douban.com/top250>

返回200，成功！！！

图片标题

方案三：治本.

修改整个python的default_settings.py文件里的默认USER_AGENT值

之后在不管是在项目中还是在cmd中使用scrapy shell，都是以浏览器的标识符来进行访问的了

找一下default_settings.py文件的位置

我的default_settings.py文件在C:\ProgramData\Anaconda3\Lib\site-packages\scrapy\settings下

找到文件位置后，打开文件，修改 USER_AGENT的值

原USER-AGENT的值：

USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__

改为

USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

再进行scrapy shell：

scrapy shell https://movie.douban.com/top250

看一下返回的信息：

response   <200 https://movie.douban.com/top250>

返回200，成功！！！

猜你喜欢

转载自blog.csdn.net/qq_37462361/article/details/87860025

scrapy中shell出现403解决方案

Scrapy爬虫返回403错误的解决方案

Nginx 出现403 Forbidden 的几种解决方案【已解决】

ERROR 403: SSL is required的解决方案

git push 却 403错误解决方案

Python爬虫403错误的解决方案

Apache访问index.html总是出现403 Forbidden错误的解决方案

Apache访问index.html总是出现403 Forbidden错误的解决方案分享

Python 3.x 中"HTTP Error 403: Forbidden"问题的解决方案

Flutter中Image.network()请求图片链接时返回403解决方案

k8s 使用私有仓库出现证书校验失败及403未授权解决方案

python3 windows 下安装scrapy出现错误解决方案

Shell 技巧 | 解决方案

SVN提交时报403错误解决方案

[debug]jsonp 403 forbidden 通用解决方案

httpGet 403 返回码，乱码的解决方案

请求外部图片的时候，遇到403的错误的解决方案

gitlab webhook jenkins 403问题解决方案

git clone 报403错误，完美解决方案

播放视频报403 forbidden的原因及解决方案

Git clone 报错：403 完美解决方案

idea中的汉语注释出现乱码的解决方案

Android Studio中app出现红叉的解决方案

idea中的中文注释出现乱码的解决方案

jmeter中http请求出现415解决方案

Nodejs中request出现ESOCKETTIMEDOUT解决方案

Xcode 真机测试时出现shell Script invocation Error解决方案

Linux下执行shell脚本，出现错误 $'\r':command not found的解决方案

使用Scrapy编写爬虫程序中遇到的问题及解决方案记录

linux 下python3的安装与编译，以及scrapy出现sqlite3错误的解决方案

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)