5.分布式爬虫

其他 2020-01-16 10:41:18 阅读次数: 0

scrapy-shell

https://segmentfault.com/a/1190000013199636?utm_source=tag-newest
shell
启动
- Linux： ctr+T,打开终端，然后输入scrapy shell “url:xxxx”
- windows: scrapy shell “url:xxx”
- 启动后自动下载指定url的网页
- 下载完成后，url的内容保存在response的变量中，如果需要，我们需要调用response
response
- 爬取到的内容保存在response中给
- response.body是网页的代码
- resposne.headers是返回的http的头信息
- response.xpath（）允许使用xpath语法选择内容
- response.css()允许使用css语法选区内容
selector
- 选择器，允许用户使用选择器来选择自己想要的内容
- response.selector.xpath: response.xpath是selector.xpath的快捷方式
- response.selector.css: response.css是他的快捷方式
- selector.extract:把节点的内容用unicode形式返回
- selector.re:允许用户通过正则选区内容

分布式爬虫

单机爬虫的问题：
- 单机效率
- IO吞吐量
多爬虫问题
- 数据共享
- 在空间上不同的多台机器，可以成为分布式
需要做：
- 共享队列
- 去重
Redis
- 内存数据库
- 同时可以落地保存到硬盘
- 可以去重
- 可以把他理解成一共dict，set，list的集合体
- 可以对保存的内容进行生命周期控制
内容保存数据库
- MongoDB
- Mysql等传统关系数据库
安装scrapy_redis
- pip install scrapy_reids
- github.com/rolando/scrapy-redis
- scrapy-redis.readthedocs.org

推荐书籍

Python爬虫开发与项目实战，范传辉，机械工业出版社
精通 python爬虫框架scrapy, 李斌翻译，人民邮电出版社
崔庆才，

TD大会·初度

发布了62 篇原创文章 · 获赞 44 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/zhizunmimi/article/details/83852817

5.分布式爬虫

5. 常见的分布式锁实现方式

Git正解脱水版【5. 分布式Git】

5.分布式事务管理-Seata

【分布式基础】5.分布式通信-rmi框架

分布式操作系统 - 5.分布式命名管理

分布式爬虫

爬虫分布式

分布式系统的架构思路深入理解java：5. Java分布式架构

分布式爬虫(5)：微博数据爬取

5. 分布式配置中心客户端(测试) springcloud-config-client-test

5.大数据学习之旅——hadoop-简介及伪分布式安装

【SpringBoot框架篇】5.分布式锁的实现方式

分布式爬虫与增量式爬虫

简单分布式爬虫

Python 分布式爬虫

分布式爬虫(4)

分布式爬虫(3)

分布式爬虫(2)

分布式爬虫的实现

爬虫 scrapy 分布式

分布式爬虫系统

分布式爬虫实战

爬虫技术：分布式

分布式爬虫原理

scrapy 分布式爬虫

Scrapy分布式爬虫

分布式爬虫入门

go分布式爬虫

Python爬虫之分布式爬虫

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)