Scrapy爬虫中的链接提取器LinkExtractor - 代码天地

Scrapy爬虫中的链接提取器LinkExtractor

其他 2018-07-31 23:07:04 阅读次数: 0

今天在编写Scrapy爬虫的时候接触到了LinkExtractor，遂学习了一下这个链接提取器。

Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象｡使用场景就是在一个网站中通过自定义规则提取到自己想要的那些网址。

Scrapy默认提供2种可用的 Link Extractor, 但你通过实现一个简单的接口创建自己定制的Link Extractor来满足需求｡默认的LinkExtractor（也就是LxmlLinkExtractor）拥有比较方便的过滤选项，使用LXML的强大的HTMLParser实现。

使用的时候先从scrapy.linkextractors模块中引入：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor的使用：

class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

相关参数的含义请参考文档：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

主要参数：

allow: #满足括号中正则表达式的值会被提取，如果为空则全部匹配
allow_domains: #会被提取的链接的域名

与之相关的CrawlSpider以及Rule之后应该会一起整合写一个博客。

猜你喜欢

转载自www.cnblogs.com/EdenChanIy/p/9398758.html

Scrapy爬虫中的链接提取器LinkExtractor

【Scrapy 动态配置爬虫 LinkExtractor提取链接】

scrapy 使用rule LinkExtractor提取链接

scrapy中使用LinkExtractor提取链接

Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据

爬虫Scrapy框架-Crawlspider链接提取器与规则解析器

Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

【重磅推荐】scrapy框架之链接提取LinkExtractor对象的使用（这里有一个很大的坑，新手都会犯的一个错误）

scrapy的使用-LinkExtractor

LinkExtractor

scrapy--Rule()与LinkExtractor()函数理解

Scrapy1.5基本概念（十）——链接提取器（Link Extractors）

Scrapy框架-对分页使用链接提取器CrawlSpider爬取每页的数据

【Scrapy 框架】「版本2.4.0源码」链接提取器（Link Extractors）详解篇

基于 Python 的 Scrapy 爬虫入门：页面提取

爬虫中的scrapy框架

scrapy 中crawlspider 爬虫

Scrapy是什么?Scrapy怎么用?Scrapy进阶使用[链接提取器、自动登录、图片(文件)下载器](基于scrapy2.0+编写) ๑乛◡乛๑ Scrapy框架使用方法

Python 链接提取器 CrawlSpider

Python爬虫爬取图片时提取链接中的图片名

提取页面、文件中的链接

提取EXCEL文字中的链接

python 提取链接中的域名

scrapy中主动停止爬虫

如何使用scrapy中的ItemLoader提取数据？

scrapy 中selector对象提取数据。

在scrapy中利用Selector来提取数据

Scrapy中response属性以及内容提取

Python 爬虫，scrapy，CrawlSpider，自动提取url并发送请求

Scrapy1.6 爬虫框架2 提取数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)