scrapy爬虫学习日志[crawl框架爬取pexels图片]

其他 2019-05-08 11:21:06 阅读次数: 0

文件生成

1直接进入cd 【pycharm终端即可】
scrapy.strstproject images
cd images
scrapy genspider -t crawl pexels(爬虫主题文件名) pexels.com(网站名称)

步骤设置

注：scrapy框架内部提供两个 Item Pipeline
FilesPipeline 用于下载文件
ImagePipeline 用于下载图片
1，在settings中导入imagepipeline路径：‘scrapy.pipelines.images.ImagesPipeline’:1
2，添加图片本地保存路径 IMAGE_STORE
3，下载延迟设置
4，在items.py中创建字典
5，在pexels.py(爬虫主体文件)中导入items

细节说明

直接上图
我自行设置的xpath 将会出现报错
xpath.1

xpath.2

报错记录

raise ValueError(‘Missing scheme in request url: %s’ % self._url)
ValueError: Missing scheme in request url:
图一里的xpath返回（图三）没有问题
图二的xpath返回（图四）报错

google了一下，上图
然而我直接加中括号也没用

总结

解决方案还没有找到，毕竟现在没有深入学习源码。我找了一些书籍上的描述（以及课程助教的回答）都建议直接在settings中设置图片宽高，但我认为这并不能完美解决（目标图片限制属性可不只有宽高）

课程链接：网易scrapy课程
------------------------------------------------------分割线19：17分
我通过在pipeline管道文件中对URL进行筛选
在settings文件中追加图片的宽高限制得到了理想的结果
具体改进在我的git上
但个人感觉还是没有真正的解决，报错的那个xpath毕竟网页里面也返回正常两者区别仅仅是返回链接数不同我现在只能通过后处理解决，不能进行预处理，脑瓜疼

猜你喜欢

转载自blog.csdn.net/NewDreamstyle/article/details/89843007

scrapy爬虫学习日志[crawl框架爬取pexels图片]

scrapy--- 爬虫框架爬取图片

爬虫学习之9：结合百度翻译API爬取PEXELS网站图片

Scrapy框架基于crawl爬取京东商品信息爬虫

[Python爬虫]爬虫实例:爬取PEXELS图片---修改为多进程爬虫

[Python爬虫]使用Scrapy框架爬取图虫图片

爬虫 Scrapy框架爬取图虫图片并下载

[Python爬虫]爬虫实例:爬取PEXELS图片---解决异步加载问题

[Python爬虫]爬虫实例:三种方式爬取PEXELS图片

Python3 Scrapy框架学习五：使用crawl模板爬取豆瓣Top250，并存入MySql、MongoDB

Scrapy爬虫框架学习（二）爬取内容导入csv

【scrapy爬虫】crawl自动化模板爬取网易新闻

爬虫 Scrapy框架"链家爬取"

【Scrapy框架日志管理及爬取效率】

scrapy爬虫框架学习（二）scrapy爬取多级网页信息

Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

[爬虫入门]Python中使用scrapy框架实现图片爬取

python爬虫利用Scrapy框架爬取汽车之家奔驰图片--实战

Python3 Scrapy框架学习三：爬取煎蛋网加密妹子图片(全爬)

scrapy爬取图片

scrapy 爬取图片

python学习（三）scrapy爬虫框架（三）——爬取壁纸保存并命名

爬虫Scrapy框架学习（四）-中国保险监督委员会爬取案例

Scrapy爬虫框架学习（三）分页爬取并保存为json文件

爬虫项目：scrapy爬取昵图网全站图片

python_爬虫_scrapy_爬取360图片实例

Python爬虫——使用Scrapy实现图片的爬取（四）

[Python爬虫]Scrapy框架爬取网易国内新闻

[Python爬虫]Scrapy框架爬取bilibili个人信息

[Python爬虫]使用Scrapy框架爬取淘宝

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)