网络爬虫笔记（Day9）——初识Scrapy - 代码天地

网络爬虫笔记（Day9）——初识Scrapy

其他 2018-11-01 08:51:04 阅读次数: 0

爬虫步骤：

分析需求
获取网页的URL
下载网页内容(Downloader下载器)
定位元素位置, 获取特定的信息(Spiders 蜘蛛)
存储信息(ItemPipeline, 一条一条从管里传输)
队列存储(Scheduler 调度器)

Scrapy：

学习文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html

首先, Spiders 给我们一个初始的URL, Spider获取列表页内的详情页的URL.
其次, 将URL 存储到Scheduler内, 然后 Scheduler 就会自动将URL放到Downloader内执行，详情页Download之后, 返回response给Spiders.
再次, Spiders会将response获取到并且查找需要的内容, 内容进行封装item.
最后, 这个item就会被传输到ItemPipeline中, 存储或者其他操作

安装scrapy的方法:

方法1：

# 由于scrapy需要依赖wheel和Twisted这两个包，故需要先按装好再去安装scrapy

pip install wheel

pip install 你的路径/Twisted-18.7.0-cp35-cp35m-win_amd64.whl

pip install scrapy

.方法2：

如果是Anaconda环境，可以直接使用：

conda install scrapy

创建项目：

scrapy startproject 项目名称(scrapy_project)


# 创建spider

cd 项目目录(scrapy_project)

scrapy genspider name xxx.com
# 例如 scrapy genspider baidu baidu.com

运行：

运行, 创建一个.py文件例如（main.py）：

main.py

from scrapy.cmdline import execute

execute('scrapy crawl baidu'.split())   # name=baidu

整个目录结构如下：

如果直接爬取拿不到数据，就去setting.py下加入全局请求报文，将DEFAULT_REQUEST_HEADERS 注释打开，加入报文。

猜你喜欢

转载自blog.csdn.net/Clany888/article/details/81986454

网络爬虫笔记（Day9）——初识Scrapy

day9——函数初识

day9：初识函数

Day9、函数初识

day9 笔记

day9（正则与爬虫）

Day9 python基础---函数初识

Python练习_初识函数_day9

Python 网络爬虫笔记9 -- Scrapy爬虫框架

Day9笔记

Python学习笔记-DAY9

HTML学习笔记Day9

机器学习学习笔记.day9

JS学习笔记Day9

Java学习笔记Day9

刷题笔记day9

驱动学习-日常笔记day9

matlab cody学习笔记 day9

力扣学习笔记day9

爬虫学习笔记-Scrapy初识

Python之路,Day9 - Python基础-模块初识

Python全栈--Day9 初识函数s

Python全栈--Day9 初识函数

day9 sendemail

day9

python day9

集训Day9

7.12 day9

8.5 Day9

【LeetCode】day9

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)