scrapy爬虫之pipelines图片下载 - 代码天地

scrapy爬虫之pipelines图片下载

其他 2018-06-11 00:07:18 阅读次数: 2

利用scrapy提供的专门处理下载的Pipeline（文件和图片下载），此原理与抓取页面原理一样，因此下载过程支持异步和多线程，下载十分高效。

首先：定义存储文件的路径（settings中定义IMAGES_STORE变量）

如 IMAGES_STORE = './images' ，也可以用绝对路径

from scrapy.pipelines.images import ImagesPipeline
import scrapy
from scrapy.exceptions import DropItem

class ImagePipeline(ImagesPipeline):

    def get_media_requests(self, item, info):#这个方法是-获取图片的链接，并且发送图片请求
        yield scrapy.Request(item['url'])

    def file_path(self, request, response=None, info=None):#此方法是给下载后保存文件命名，参数request是当前下载对应的Request对象
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        #当单个Item完成下载时的处理办法。因为并不是每张图片都会下载成功，所以需要分析下载结果和剔除下载失败的图片。
        #如果某张图片下载失败，就不需要保存此item到数据库。
        #参数results就是该Item对应的下载结果，它是一个列表形式，列表每一个元素是一个元组，其中包含下载成功或失败的信息。
        #在这里，我们遍历下载结果找出所有成功的下载列表,如果列表为空,该item对应的图片下载失败，跑出DropItem异常，该Item忽略，否则返回Item
        image_paths = [x["path"] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item

猜你喜欢

转载自blog.csdn.net/zupzng/article/details/80039927

scrapy爬虫之pipelines图片下载

Scrapy实战之图片下载器爬虫

scrapy 图片下载设置

Scrapy学习篇（九）之文件与图片下载

python爬虫图片下载

爬虫实战篇---使用Scrapy框架进行汽车之家宝马图片下载爬虫

从图片下载中学习scrapy

Python笔记：爬虫框架Scrapy抓取数据入库及图片下载流程处理

爬虫_百度图片下载

python 2.7 图片下载爬虫

Python爬虫打造图片下载器

爬虫案例：图片下载器

Java 爬虫基础|图片下载

Python 分布式爬虫框架 Scrapy 4-9 图片下载以及图片路径的保存

scrapy 图片下载管道以及文件下载管道

scrapy爬虫之pipelines（数据库和json）

Python爬虫实战之通过ajax获得图片地址实现全站图片下载(二)

scrapy爬虫问题items与pipelines

scrapy save mysql or mongo, 和图片下载保存

Js之echarts图片下载

python 爬虫 6 （scrapy item、scrapy pipelines）

【Scrapy中的图片和文件】scrapy系统内置的图片下载管道

【Scrapy 图片和文件】scrapy自定义图片下载挂件功能板块

【Scrapy 文件和图片】scrapy自定义的图片下载通道基本实例、构成、实例

Jsoup爬虫案例-苏宁易购图片下载

第二个爬虫------mzitu图片下载

Python爬虫——使用socket模块进行图片下载

Python 爬虫网页图片下载到本地

前端图片下载

多图片下载

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)