scrapy-pipelines的写法 - 代码天地

scrapy-pipelines的写法

编程语言 2018-09-01 11:22:13 阅读次数: 0

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from monday_scrapy.mysqlhelper import MysqlHelper
import os
import requests
import scrapy

from scrapy.pipelines.images import ImagesPipeline

class MondayScrapyPipeline(object):
def process_item(self, item, spider):
return item

class StoreMysqlScrapyPipeline(object):
def process_item(self, item, spider):
# 存储数据到mysql中
(insert_sql, data) = item.get_insert_sql()
# 生成mysqlhelper的类
myhelper = MysqlHelper()
myhelper.execute_modify_sql(insert_sql, data)
return item

class StoreImagePipeline(object):
def process_item(self, item, spider):
image_url = item['my_image_urls'][0]
print(image_url)
response = requests.get(image_url)
if not os.path.exists('download'):
os.mkdir('download')

filename = 'download/' + image_url.split('/')[-1]
item['image_file_name'] = filename
with open(filename, 'wb') as f:
f.write(response.content)

return item

headers ={

}

class MyImagesPipeline(ImagesPipeline):
# 通过函数名字我们能够翻译出来, 获取image的requests(scrapy.Request),
# 框架回将这个requests放到scheduler
def get_media_requests(self, item, info):
for image_url in item['my_image_urls']:
# req = scrapy.Request(image_url)
# req.headers['User-Agent'] = "
yield scrapy.Request(image_url, meta={'file_path': 'car'}, headers=headers)
# for pretty_girl in item['pretty_girls']:
# yield scrapy.Request(pretty_girl, meta={'file_path': 'girl'})

# 通过函数名字的翻译, item 执行结束. 这个函数会有result的返回值, result内部有存储的路径
def item_completed(self, results, item, info):
# print(results)
if isinstance(item, dict) or self.images_result_field in item.fields:
item[self.images_result_field] = [x for ok, x in results if ok]
item['image_file_name'] = results[0][1]['path']
# item 执行结束的时候回调用这个函数
return item

# 最终我们需要返回列表, 或者是yield Request

猜你喜欢

转载自blog.csdn.net/weixin_42958164/article/details/82154085

scrapy-pipelines的写法

Scrapy 中mongodb pipelines 异步写法

scrapy的使用-Pipelines

scrapy爬虫问题items与pipelines

scrapy pipelines 注意事项

python 爬虫 6 （scrapy item、scrapy pipelines）

scrapy 为每个spider 设置不同的pipelines

scrapy爬虫之pipelines图片下载

scrapy基础框架 pipelines 去重

Scrapy_items.py，pipelines.py

Scrapy之持久化pipelines/items

Scrapy框架: pipelines.py设置

Pipelines

Scrapy学习-4-Items类&Pipelines类

scrapy爬虫之pipelines（数据库和json）

scrapy：Pipelines三种方法保存json文件

Scrapy用pipelines把字典保存为csv格式

scrapy框架之pipelines模块总结和注意事项

scrapy之pipelines存数据库Mysql(一)

scrapy框架中多个spider,tiems,pipelines的使用及运行方法

Scrapy爬虫框架管道文件pipelines数据图像存储

Scrapy从入门到放弃4--管道pipelines使用

scrapy—items的代码写法

Scrapy框架的学习(2.scrapy入门，简单爬取页面，并使用管道(pipelines)保存数据)

scrapy框架【Pipelines选择器】 scrapy框架之Selectors选择器

scrapy爬虫框架 (1. Scrapy的基本介绍、使用流程、分组打印、pipelines（管道）使用）

scrapy--mysqlhelper的包的写法

scrapy多个爬虫公用一些中间件、pipelines

Python3~Scrapy框架爬取网页数据到MySql~pipelines.py

scrapy--pipelines基本用法--如何自定义ImagesPipeline抓取图片

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)