利用Scrapy框架下载图片报400状态码 - 代码天地

利用Scrapy框架下载图片报400状态码

其他 2018-10-24 17:16:09 阅读次数: 0

问题：

利用Scrapy框架爬伯乐在线的时候，涉及到图片下载，因为scrapy框架中内置有图片下载功能，所以没有另外写，直接使用。在settings.py中做了如下修改：

ITEM_PIPELINES = {
    'Article.pipelines.ArticlePipeline': 300,
    "scrapy.pipelines.images.ImagesPipeline": 1
}

程序跑起来很OK，但没有图片下载下来，一检查，发现存在这样的警告：
[scrapy.pipelines.files] WARNING: File (code: 400): Error downloading file from <GET xxx> referred in <None>

经排查，找到问题出现在请求头的设置部分：

DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    'Host': 'blog.jobbole.com'
}

解决方法：

将Host字段删除即可

反思：

我思考之后，认为之所以出现这样的问题，是因为Host字段用于客户端指定自己想访问的http服务器的域名/IP 地址和端口号。也就是说，当我设置为blog.jobbole.com这个域名以后，就无法再对图片进行请求，因为我请求的图片并非在这个域名之下

猜你喜欢

转载自blog.csdn.net/qq_41359051/article/details/81456795

利用Scrapy框架下载图片报400状态码

Scrapy框架下载图片(站酷网下载图片)

python爬虫之Scrapy框架，基本介绍使用以及用框架下载图片案例

利用Python的scrapy下载图片

利用scrapy下载图片保存到本地

Python项目-Day46-Scrapy框架之利用ImagesPipeline下载图片.md

2018 - Python 3.7 爬虫之利用 Scrapy 框架获取图片并下载（二）

egg框架下载

Hibernate框架下载

使用scrapy爬虫框架批量下载图片

使用get方法传参报400状态码解决办法

put请求400状态码

sping框架下载地址

Spring框架下载方法

Spirng框架下载地址

Bootstrap框架下载与使用

Scrapy爬虫框架下执行爬虫的方法

Django框架下报的版本问题

Image-loader图片加载框架下载图片及自定义路径

利用scrapy框架爬取图片并重命名

vue阿里上传图片报400错误

SSM框架下实现验证码图片验证功能（源码）

flask项目1实战：2.2 flask框架下使用图片验证码

Django框架下载与Django框架初识

Scrapy框架学习 - 使用内置的ImagesPipeline下载图片

爬虫 Scrapy框架爬取图虫图片并下载

爬虫2.4-scrapy框架-图片分类下载

Scrapy框架实战（四）：下载京东外设的商品图片

python Scrapy框架报301

状态码200、300、400、500序列

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)