Scrapy爬虫方法

企业开发 2023-08-12 17:42:29 阅读次数: 0

目录

1.1、什么是scrapy

1.2、结构性数据

二、scrapy的使用

2.1、创建scrapy项目

2.2、创建爬虫文件

2.3、运行爬虫代码

2.4.1、scrapy项目结构

2.4.2、response的属性和方法

2.4.3、scrapy架构组成

2.4.4、scrapy工作原理

三、scrapy shell

3.1、什么是scrapy shell

3.3.1、进入scrapy终端

四、CrawlSpider

五、数据入库

六、日志信息及日志等级

七、scrapy的post请求

一、简介

1.1、什么是scrapy

scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。

1.2、结构性数据

类似的，具有相同结构的数据，称为结构性数据，如下图。

1.3、安装

二、scrapy的使用

2.1、创建scrapy项目

1）在终端输入：scrapy startproject 项目名称

注意：项目名称不能以数字开头，且不能包含中文

2）此时，在目录下会出现新建的scrapy项目

2.2、创建爬虫文件

1）进入spiders文件夹下，创建爬虫文件：scrapy genspider 爬虫文件名称

scrapy genspider baidu http://www.baidu.com

注意：1)需要在spiders文件夹中创建爬虫文件

2)域名不需要加http协议，scrapy会自动添加

2）创建成功：

3）baidu.py文件内容

注意：如果请求的页面以 html 结尾，最后的 “/” 需要删除

import scrapy

class BaiduSpider(scrapy.Spider):

    # 爬虫名字：运行爬虫时使用
    name = 'baidu'

    # 允许访问的域名
    allowed_domains = ['www.baidu.com']

    # 起始的url地址，表示第一次访问的域名：
    # start_urls = 'http://' + allowed_domains + '/'
    start_urls = ['http://www.baidu.com/']

    # 方法中response为爬取网页后的返回对象
    # 类似于：response = urllib.request.urlopen(request)
    def parse(self, response):
        pass

2.3、运行爬虫代码

1）注释掉settings.py文件中的 ROBOTSTXT_OBEY

2）运行：scrapy crawl 爬虫的名字

2.4、实战

2.4.1、scrapy项目结构

scrapy项目的结构：
    --项目名称
      --项目名称
        --spiders文件夹(存储的是爬虫文件)
            --__init__.py
            --tc.py         (自定义的爬虫文件 核心功能文件)
        --__init__.py
        --items.py          (定义数据结构的地方 爬取的数据都包含哪些)
        --middlewares.py    (中间件 代理)
        --pipelines.py      (管道 用来处理下载的数据)
        --settings.py       (配置文件 robots协议 ua定义等)

2.4.2、response的属性和方法

方法	作用
response.text	获取的是响应的字符串
response.body	获取的是二进制数据
response.xpath	可以直接是xpath方法来解析response中的内容
response.extract()	提取selector对象的data属性
response.extract_first()	提取selector列表的第一个数据

2.4.3、scrapy架构组成

2.4.4、scrapy工作原理

三、scrapy shell

3.1、什么是scrapy shell

3.2、安装

3.3、应用

3.3.1、进入scrapy终端

（1）scrapy shell www.baidu.com

（2）scrapy shell http://www.baidu.com

（3）scrapy shell “http://www.baidu.com”

（4）scrapy shell “www.baidu.com”

3.3.2、语法

response对象：

response.body

response.text

response.url

response.status

response解析：

response.xpath

response.extract_first()

response.css()

四、CrawlSpider

4.1、介绍

4.2、实操

五、数据入库

六、日志信息及日志等级

七、scrapy的post请求

八、代理

猜你喜欢

转载自blog.csdn.net/weixin_44302046/article/details/126809328

Scrapy爬虫方法

调试scrapy爬虫程序的方法

Scrapy爬虫框架下执行爬虫的方法

macOS Scrapy 爬虫 zsh: command not found: scrapy 解决方法

使用scrapy框架搭建爬虫的方法

scrapy中主动触发关闭爬虫的方法

爬虫scrapy

scrapy爬虫

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

scrapy爬虫与反爬虫

Scrapy学习-15-降低被识别为爬虫的方法

在scrapy爬虫框架xpath中extract（）方法的使用

爬虫(9)、Scrapy Item Loaders使用方法

scrapy爬虫返回302，301，解决方法

python 爬虫框架 scrapy两种运行方法

[爬虫框架scrapy]scrapy的安装

爬虫之scrapy网络爬虫

python爬虫-scrapy爬虫框架

爬虫（八）Scrapy爬虫框架

网络爬虫：Scrapy爬虫框架

Scrapy是什么?爬虫框架(Scrapy)简介、安装与启动(虚拟环境安装方法,pycharm安装报错解决方法) ๑乛◡乛๑ Scrapy框架使用方法

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

scrapy爬虫编写流程

scrapy 简单爬虫实验

Scrapy框架爬虫案例

爬虫框架之Scrapy

scrapy爬虫基础

scrapy爬虫框架

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)