Scrapy爬虫自学笔记（一） - 代码天地

Scrapy爬虫自学笔记（一）

编程语言 2018-06-01 14:46:55 阅读次数: 2

工作之余，多学习，补充技术不足。

基础

1、新建scarpy项目
打开cmd，切换到工作目录中

新建项目，命名为tutorial

scrapy startproject tutorial

新建项目

2、创建新的爬虫任务

scrapy genspider example example.com

这里指的是爬取网站example.com，并将项目命名为example
任务代码展示

3、写取数逻辑
以爬取quotes.toscrape.com为例，新建任务脚本quotes_spider.py，逻辑写在quotes_spider.py 中。如提取网页内容：
逻辑代码

4、运行

打开cmd，切换到该项目下，运行：

scrapy crawl quotes_spider

运行项目

5、shell 提取数据
使用shell是为了帮助我们更好的利用xpath和css来获取数据。
shell

注意：必须使用双引号

css

css

添加:: text ，是为了获取到<title>中的文本内容，extract() 用户提取数据

提取第一个结果或者结果

方式一

response.css('title::text').extract_first()

方式二

response.css('title::text')[0].extract()

注意：使用 **.extract_first()**  可以避免没有值的时候返回 **IndexError** 错误，同时返回 **None**

方式三

采用正则化提取，re()

xpath

使用xpath提取数据
xpath

完整的代码

将上面使用css或xpath处理的逻辑写入脚本，代码如下：
完整的代码

数据存储

以存为json为例
存数据

获取下一页

<ul class="pager">
    <li class="next">
        <a href="/page/2/">Next <span aria-hidden="true">&rarr;</span></a>
    </li>
</ul>

下一页

方式一：绝对链接

response.urljoin是将两个拼接起来，构成完整的链接
绝对路径

方式二：相对链接

response.follow 支持相对链接方式
相对路径

猜你喜欢

转载自blog.csdn.net/xxzhangx/article/details/80521155

Scrapy爬虫自学笔记（一）

【Python自学笔记】Scrapy爬虫项目创建&代码

【Python自学笔记】Scrapy爬虫项目settings常用设置

python爬虫------scrapy学习笔记（一）

【爬虫自学笔记】---使用scrapy和普通爬虫爬取豆瓣电影Leon图片

scrapy爬虫笔记（创建一个新的项目并运行） scrapy爬虫笔记（安装）

Scrapy爬虫笔记——1

Scrapy爬虫笔记——2

爬虫 scrapy 笔记

【python爬虫笔记】scrapy

【Python自学笔记】Scrapy爬虫之保存数据（txt/json/mysql/excel）

Scrapy爬虫学习笔记1. 安装并编写第一个Scrapy爬虫

scrapy简单爬虫（一）

Scrapy爬虫（一）

一爬虫框架(scrapy)

scrapy爬虫框架(一)

Python爬虫_Scrapy(一)

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

自学爬虫（一）

python爬虫笔记（七）——scrapy文档阅读（一）——scrapy的基本使用

8.23爬虫笔记5（scrapy）

爬虫学习笔记-Scrapy散记

爬虫学习笔记-Scrapy初识

python笔记(爬虫 Scrapy websocket)

学习笔记 scrapy 爬虫框架

scrapy爬虫框架（一）：scrapy框架简介

scrapy专利爬虫（一）——scrapy简单介绍

爬虫框架Scrapy 之(一) --- scrapy初识

Python 爬虫（一）scrapy框架

爬虫框架Scrapy学习（一）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)