python：Scrapy爬取360摄影美图 - 代码天地

python：Scrapy爬取360摄影美图

其他 2019-04-23 03:07:22 阅读次数: 0

我们要爬取的网站为http://image.so.com/z?ch=photography，打开开发者工具，页面往下拉，观察到出现了如图所示Ajax请求

其中list就是图片的详细信息，接着观察到每个Ajax请求的sn值会递增30，当sn为30时，返回前30张图片，当sn为60时，返回第31到60张图片，所以我们每次抓取时需要改变sn的值。接下来实现这个项目。

首先新建一个项目：scrapy startproject images360

新建一个Spider：scrapy genspider images images.so.com

在settings.py中定义爬取的最大量：MAX_PAGE=10

定义一个Item以接收Spider返回的Item：

修改images.py：

利用urlencode()方法将data转化为URL的get参数，每次爬取30张图片直到爬取完成。

修改settings.py中ROBOTSTXT_OBEY变量为False，这个变量代表是否遵守网站的爬取规则，若不修改则无法爬取。

接下来我们要把爬取到的数据存入数据库，新建数据库以及表的操作在此不再赘述。创建好数据库及表后，我们需实现一个Item Pipeline以实现存入数据库的操作：

这里需要在settings.py中添加几个关于MySQL配置的变量，如下所示：

MYSQL_HOST = 'localhost'

MYSQL_DATABASE = 'images360'

MYSQL_PORT = 3306

MYSQL_USER = 'root'

MYSQL_PASSWORD = '123456'

scrapy提供了专门处理下载的Pipeline。首先定义存储文件的路径，在settings.py中添加：IMAGES_STORE = './images'

定义ImagePipeline：

get_media_requests()方法取出Item对象的URL字段，生成Request对象发送给Scheduler，等待执行下载。

file_path()方法返回图片保存的文件名。

item_complete()方法当图片下载成功时返回Item说明下载成功，否则抛出DropItem异常，忽略这张图片。

最后需在settings.py文件中设置ITEM_PIPELINES以启动item管道：

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89452152

python：Scrapy爬取360摄影美图

Scrapy爬虫实战------360摄影美图

使用Scrapy框架爬取360摄影图片的信息

Scrapy爬取360图片

python_爬虫_scrapy_爬取360图片实例

Python scrapy 框架之爬取腾讯和360

python简单爬虫项目：爬取360摄影图片及其信息

scrapy爬取360美食图片

用Python爬取某吧的美图

scrapy--json(360美图)

scrapy爬取python职位

详解python爬取今日头条街拍美图

python：今日头条中街拍美图的爬取

Python爬取美图福利，千万不要鸡动，冷静

Python-爬取今日头条美图

python爬取优美图库海量图片，附加代码，一键爬取

利用Python爬取B站摄影栏目的图片

爬取360图片

python scrapy爬取网站数据一

Python Scrapy——Youtube爬取示例

Python Scrapy爬取并保存到Mysql

python+scrapy爬取斗鱼图片

python之scrapy爬取股票信息

python 爬虫 scrapy 爬取腾讯招聘

python scrapy 爬取steam游戏

python使用scrapy爬取图片

python scrapy 爬取Boss直娉

python项目_Scrapy_爬取图片???

使用scrapy框架爬取蜂鸟论坛的摄影图片并下载到本地

Python爬虫百度360信息搜索并爬取

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)