Python爬虫--使用scrapy框架(2) - 代码天地

Python爬虫--使用scrapy框架(2)

其他 2018-08-10 00:58:41 阅读次数: 0

1.需求介绍

上一篇文章中讲的是抓取一个网页的数据，但是如果爬取的一个网站中有很多页，我们又想把每一页的数据都爬取下来怎么办呢，例如我们接下来将要爬取的这个网站，如图红框中的next，点击后会进入下一页：
这里写图片描述

2.编写代码

下面的代码将展示如何爬取多个页面的数据：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/tag/humor/',]

    def parse(self, response):
        for quote in response.xpath('//div[@class="quote"]'):
            #把爬取到的数据返回，用于存储到文件中
            yield {'text': quote.xpath('span[@class="text"]/text()').extract_first(),
                   'author': quote.xpath('span/small[@class="author"]/text()').extract_first(),}

        #查找出next指向的url
        next_page = response.xpath('//li[@class="next"]/@herf').extract_first()
        if next_page is not None: #爬取到最后一页的时候就没有next了，这里判断一下
            next_page = response.urljoin(next_page) #拼接url，后面讲
            yield scrapy.Request(next_page, callback=self.parse)
            #callback=self.parse表示下次调用时使用的分析函数是self.parse

根据href找出的下一页的url是一个简短url形式，是不完整的，如下图，完整的url应该是http://quotes.toscrape.com/tag/humor/page/2，所以需要用response.urljoin拼接。
这里写图片描述

3.运行代码

在Windows的cmd命令行中执行：scrapy runspider quotes_spider.py -o spider.json，以上程序中爬取到的数据就会输出到spider.json文件中。

猜你喜欢

转载自blog.csdn.net/qq_16209077/article/details/80101790

Python爬虫--使用scrapy框架(2)

Python爬虫框架Scrapy的使用

python爬虫 scrapy爬虫框架的基本使用

14、Python Scrapy Web爬虫框架【2】

python爬虫框架——scrapy(2) 实战练习

Python使用Scrapy框架爬虫（一）

python使用Scrapy框架进行爬虫编程

Python Scrapy爬虫框架之初次使用

Python爬虫--使用scrapy框架(1)

python爬虫练习(使用scrapy框架)

python爬虫笔记（七）:使用Scrapy框架

python爬虫框架--scrapy 基本使用

python 爬虫 scrapy框架的详细使用

python 爬虫 scrapy框架的使用一

Python爬虫 --- 2.3 Scrapy 框架的简单使用

Python爬虫之Scrapy框架使用selenium

python爬虫框架：scrapy 的安装与使用

Python爬虫之Scrapy框架的基本使用

Python 后端爬虫Scrapy 框架使用

Python:爬虫框架Scrapy的安装与基本使用

python爬虫之scrapy框架的使用-基础

Python的爬虫框架Scrapy基本使用

Python爬虫基础（五）：使用scrapy框架

Python的网络爬虫框架-Scrapy爬虫框架的使用

scrapy 框架 python 爬虫

python爬虫-scrapy框架

python爬虫scrapy框架

Python爬虫框架—Scrapy

Python爬虫框架Scrapy

python爬虫--scrapy框架

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)