网络爬虫 - 10 深入理解Scrapy框架 - 代码天地

网络爬虫 - 10 深入理解Scrapy框架

编程语言 2018-08-30 05:11:15 阅读次数: 0

深入理解Scrapy框架

1、scrapy shell

scrapy shell是一个scrapy的调试工具，用它来进行调试xpath，在scrapy shell中测试的是对的，到代码中肯定是对的。

安装 pip install ipython
使用方式：scrapy shell url

在ipython中可以直接使用response

response.xpath()  得到一个列表，里面都是selector对象
ret[0].extract === ret.extract()[0] == ret.extract_first()如果xpath写错了，extract_first会返回None，前面连个会抛出异常
    scrapy里面不仅集成了xpath，还集成了bs，也可以使用选择器查找元素
    response.css(选择器)
            获取文本内容
                ret = response.css('#content-left > div h2::text')
            获取属性
                ret = response.css('#content-left > div img::attr(src)')
    item对象
        这个对象在使用的时候和字典的用法一模一样
        item['name'] = xxx
        item['age'] = xxx
        可以将对象快速的转化为字典
        d = dict(item)

2、yield item和请求

from scrapy import cmdline
cmdline.execute()

3、日志信息和错误等级

scrapy内置5类错误等级

python 严重错误 CRITICAL 一般错误 ERROR 警告 WARNING 普通信息 INFO 调试信息 DEBUG 发现bug需要3秒钟，解决bug需要3个小时，debug却要一辈子默认等级是DEBUG 配置等级 LOG_LEVEL = 'ERROR' 配置写到文件中 LOG_FILE = 'log.txt'

4、发送post请求

python scrapy.FormRequest(url=xxx, formdata=xxx, callback=self.xxx) 如果运行爬虫就想发送post请求，需要重写start_requests方法

5、使用Scrapy框架爬取图片

见代码

猜你喜欢

转载自blog.csdn.net/hanbo6/article/details/82183126

网络爬虫 - 10 深入理解Scrapy框架

python网络爬虫实战-Scrapy,深入理解scrapy框架，解决数据抓取过程

Python3网络爬虫实战-10、爬虫框架的安装：PySpider、Scrapy

网络爬虫：Scrapy爬虫框架

Python 网络爬虫笔记10 -- Scrapy 使用入门

深入理解计算机网络-10传输层3

深入理解计算机网络-10传输层2

深入理解计算机网络-10传输层1

深入理解计算机网络-10传输层4

OkHttp网络框架深入理解-SSL握手与加密

爬虫之scrapy网络爬虫

理解Scrapy爬虫框架架构

Windows10下安装爬虫框架scrapy

爬虫学习 10.scrapy框架简介和基础应用

如何在Win10上安装爬虫框架Scrapy

快速认识网络爬虫与Scrapy网络爬虫框架

CUDA（10）之深入理解threadIdx

10折交叉验证深入理解

深入理解 LSTM 网络

Docker 网络深入理解

深入理解AlexNet网络

Scrapy网络爬虫简介

Python的网络爬虫框架-Scrapy爬虫框架的使用

基于Scrapy框架的网络爬虫搭建

网络爬虫之scrapy框架详解

网络爬虫框架Scrapy详解之Request

网络爬虫Scrapy框架学习2

网络爬虫Scrapy框架学习1

开源python网络爬虫框架Scrapy

Python网络爬虫之Scrapy框架（CrawlSpider）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)