使用urljoin()方法构建完整的绝对URL - 代码天地

使用urljoin()方法构建完整的绝对URL

其他 2018-10-31 02:19:04 阅读次数: 0

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.css('small.author::text').extract_first(),
                'tags': quote.css('div.tags a.tag::text').extract(),
            }

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

现在，在提取数据后，parse()方法查找到下一页的链接，使用urljoin()方法构建完整的绝对URL（因为链接可以是相对的），并产生一个新的请求到下一个页面，将自己作为回调函数来处理下一页的数据提取，并保持遍历所有页面的抓取。

在这里您将看到Scrapy的跟随链接机制：当您在回调方法中产生请求时，Scrapy会安排发送请求并注册一个回调方法，以便在请求结束时执行。

使用这种方法，您可以根据您定义的规则构建复杂的抓取工具，并根据所访问的页面提取不同类型的数据。

在我们的例子中，它创建了一个循环，找下一页的所有链接，直到它找不到。这种做法对于抓取分页的博客，论坛和其他网站的链接是很方便的。

猜你喜欢

转载自blog.csdn.net/pythonisnotshell/article/details/80538401

使用urljoin()方法构建完整的绝对URL

drf框架-http方法与url构建

绝对url和相对url

如何使用 Apache 构建 URL 缩短服务

使用Apache来构建URL缩短服务

urllib.parse.urljoin(base, url, allow_fragments=True)的解释和用法

Python实战：通过内置函数urljoin优雅的实现url链接的拼接

使用jquery获取url及url参数的方法

使用Python truffle 构建完整的智能合约

使用sklearn构建完整的回归项目（一）

使用sklearn构建完整的分类项目

使用docker构建完整的web Java项目

php获取当前页完整url地址的方法教程

PHP取当前网页完整url地址的方法

xCat 完整使用方法

运用Apache构建URL缩短服务的方法简介

iOS开发技巧之：iOS工程的完整重命名方法，绝对有用！

获取完整的请求URL

完整的URL是怎样的？

[开发笔记]-使用jquery获取url及url参数的方法

使用maven构建，打包Java项目完整实例

使用 Java @Annotations 构建完整的 Spring Boot REST API

Git使用方法（精心整理，绝对够用）

git的使用方法，绝对简单有效

使用JS获取URL中参数的方法

使用python 实现url 接口的方法

使用js从URL中获取参数的方法

URL.createObjectURL()的使用方法

路径拼接urljoin

python3 urljoin

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)