Python爬虫笔记（十三）——Scrapy官方文档阅读——Link Extractors

其他 2018-08-20 03:34:03 阅读次数: 0

Link extractors用于从网页中抓取链接

使用link extractors

引入包：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor

LxmlLinkExtractor是推荐的具有方便过滤选项的链接提取器

__init__函数的参数：

allow（正则表达式）：提取的url必须满足的规则，可选参数
deny（正则表达式）：提取的url都不满则的规则，可选参数
allow_domains（string或是string的list）：提取的url的域名必须是指定域名，可选参数
deny_domains（string或是string的list）：含有该指定值的url会被忽略，可选参数
restrict_xpath（string或是string的list）：通过xpath提取response的一部分，从这一部分提取链接，可选参数（相当于缩小匹配范围）
restrict_css（string或是string的list）：通过css选择器提取response的一部分，从这一部分提取链接，可选参数（相当于缩小匹配范围）
tags（string或是string的list）：考虑提取链接的html标签，默认情况下是（‘a’，‘area’）
attrs（list）：提取链接时需要注意的html标签的属性，默认是（‘href’，）
canonicalize（boolean）：规范化url，最好使用默认值False
unique（boolean）：提取url时，是否要保证url不重复
process_value（callable）：一个函数，它接收从标签和属性中提取的每个值，并且可以修改这个值并返回一个新的值，或者返回None以完全忽略链接。如果没有指定，process_value默认为lambda x: x
strip（boolean）：是否去除提取的url中的空格，默认为true

具体的使用例子文档也没有给出，以后在补上

setting部分不打算在整理了，在需要的时候可以查看：https://doc.scrapy.org/en/latest/topics/settings.html

猜你喜欢

转载自blog.csdn.net/dhaiuda/article/details/81582617

Python爬虫笔记（十三）——Scrapy官方文档阅读——Link Extractors

python 爬虫(四) Link Extractors 详解

python3 scrapy 进阶（一）Rule ， Link Extractors 的使用

Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

Scrapy1.5基本概念（十）——链接提取器（Link Extractors）

【Scrapy 框架】「版本2.4.0源码」链接提取器（Link Extractors）详解篇

Python爬虫笔记（十）——Scrapy官方文档阅读——Scrapy shell

Python爬虫笔记（九）——Scrapy官方文档阅读——Itemloader

Python爬虫笔记（十二）——Scrapy官方文档阅读——Feed exports

Python爬虫笔记（十一）——Scrapy官方文档阅读——Item Pipeline

Python爬虫笔记（十四）——Scrapy官方文档阅读——Selector

Python爬虫笔记（八）——Scrapy官方文档阅读——Scrapy常用命令集锦

Python爬虫笔记（十二）——Scrapy官方文档阅读笔记——request与response

【计算机视觉】Image Feature Extractors方法介绍合集（二）

【计算机视觉】Image Feature Extractors方法介绍合集（一）

Spring Core 官方文档阅读笔记（十三）

python爬虫笔记（七）——scrapy文档阅读（一）——scrapy的基本使用

Scrapy官方文档笔记

scrapy 官方文档笔记

python2.7官方文档阅读笔记

Python3.6.3官方文档阅读笔记

Kafka官方文档阅读笔记

【python爬虫笔记】scrapy

python爬虫(十三)-------------------HelloWorld级scrapy(scrapy spider组件)

Locust压测官方文档阅读笔记

cloud stream 官方文档阅读笔记4

cloud stream 官方文档阅读笔记3

cloud stream 官方文档阅读笔记2

cloud stream 官方文档阅读笔记1

MySQL(8.0)官方文档阅读笔记

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)