爬虫框架Scrapy 之(一) --- scrapy初识 - 代码天地

爬虫框架Scrapy 之(一) --- scrapy初识

其他 2019-04-26 20:31:20 阅读次数: 0

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架，许多功能已经被封装好，方便提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。

Scrapy 的组成部分： 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道（item和pipeline）

　　以上五部分只需要关注爬虫和管道即可

spiders：蜘蛛或爬虫，分析网页的地方，主要的代码写在这里
管道：包括item和pipeline，用于处理数据
引擎：用来处理整个系统的数据流，触发各种事务（框架的核心）
下载器：用于下载网页内容，并且返回给蜘蛛（下载器基于Twisted的高效异步模型）
调度器：用来接收引擎发过来的请求，压入队列中等处理任务

Scrapy框架安装

Mac安装步骤

安装依赖库Twisted。打开终端 pip install twisted
安装其框架Scrapy。 pip install scrapy

wid安装步骤

在线安装和Mac相同, pip install twisted
离线安装需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本，然后想下载好的文件拖到 pip install 后面
安装其框架和Mac相同
安装 pip install pywin32

Scrapy工程创建

工程创建：

首先在终端 cd到存放的目录下
创建项目： scrapy startproject 项目名。
然后在pycharm中打开此项目(空工程)
创建爬虫： scrapy genspider 爬虫名域名
运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

工程配置运行：

根据需求编写item
在spiders里面解析数据
在管道中处理解析完的数据

猜你喜欢

转载自www.cnblogs.com/TMMM/p/10774254.html

爬虫框架Scrapy 之(一) --- scrapy初识

爬虫框架之Scrapy

爬虫之 scrapy框架

爬虫框架之——Scrapy

爬虫之scrapy框架

爬虫框架之Scrapy(一)

一爬虫框架(scrapy)

scrapy爬虫框架(一)

Scrapy爬虫框架初识

scrapy爬虫框架（一）：scrapy框架简介

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

爬虫框架Scrapy 之(二) --- scrapy文件

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例

爬虫框架之scrapy 爬虫框架之Scrapy

Python之Scrapy爬虫框架

scrapy爬虫框架之ImagePipeline

Python之scrapy框架爬虫

5 爬虫之scrapy框架

爬虫scrapy框架之CrawlSpider

scrapy框架之定时爬虫

爬虫系列之Scrapy框架

爬虫之Scrapy框架介绍

python爬虫之Scrapy框架

爬虫框架之Scrapy（二）

爬虫之 scrapy 框架总结

爬虫之scrapy框架（二）

Python 爬虫之scrapy 框架

四: scrapy爬虫框架 5、爬虫系列之scrapy框架

Python 爬虫（一）scrapy框架

爬虫框架Scrapy学习（一）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)