Python-- scrapy-shell学习笔记

其他 2018-11-02 21:48:05 阅读次数: 0

目录

4.练习（自己做的小练习，获取招聘网站的信息）

scrapy-shell

官方文档：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.html

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。

如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。（推荐安装IPython）

1.启动

Linux： ctr+T,打开终端，然后输入scrapy shell "url:xxxx"
windows: scrapy shell "url:xxx"
启动后自动下载指定url的网页
下载完成后，url的内容保存在response的变量中，如果需要，我们需要调用response

Scrapy Shell根据下载的页面会自动创建一些方便使用的对象，例如 Response 对象，以及 Selector 对象 (对HTML及XML内容)。

当shell载入后，将得到一个包含response数据的本地 response 变量，输入
response.body将输出response的包体，输出 response.headers 可以看到response的包头。
输入 response.selector 时，将获取到一个response 初始化的类 Selector 的对象，此时可以通过使用
response.selector.xpath()或response.selector.css() 来对 response 进行查询。
Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同样可以生效（如之前的案例）。

2.response

爬取到的内容保存在response中给
response.body是网页的代码
resposne.headers是返回的http的头信息
response.xpath（）允许使用xpath语法选择内容
response.css()允许使用css语法选区内容

3.selector

Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制

Selector有四个基本的方法，最常用的还是xpath:

xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表
extract(): 序列化该节点为Unicode字符串并返回list
css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表，语法同 BeautifulSoup4
re(): 根据传入的正则表达式对数据进行提取，返回Unicode字符串list列表

selector ：

选择器，允许用户使用选择器来选择自己想要的内容
response.selector.xpath: response.xpath是selector.xpath的快捷方式
response.selector.css: response.css是他的快捷方式
selector.extract:把节点的内容用unicode形式返回
selector.re:允许用户通过正则选区内容

4.练习（自己做的小练习，获取招聘网站的信息）

1.首先进入猎聘网，搜索Python，按F12出现如下界面

2.查找岗位的连接所在位置

3.启动shell

出现如下信息表示成功：

4.根据连接所在位置进行查找（用到xpath的知识，xpath教程http://www.w3schools.com/XPath/default.asp）

输出查看结果：

猜你喜欢

转载自blog.csdn.net/ydw_ydw/article/details/82391726

Python-- scrapy-shell学习笔记

Python学习笔记--Python 爬虫入门 -18-2 Scrapy-shell

Python-- Scrapy

Python--学习笔记1

python--笔记：数据的获取

python--目录学习

Python--类成员学习

学习Python--函数进阶

python--递归函数的学习

python-- numpy学习总结

python--基础学习--pymysql

scrapy-shell

Python--学习笔记5 numpy

python--学习笔记6 pandas

python--学习笔记9 绘图

Python--学习笔记10 openpyxl

python--学习笔记11 pandas groupby

python--学习笔记12 requests

python--学习笔记14 tensor flow

Python--为什么学习Python？

笔记 Python--线程锁 Queue

Python--切片学习记录

python--学习numpy基础操作（二）

python--学习numpy基础操作（一）

学习python--第三天

零基础学习Python--导读

python--基础学习--文件及目录操作

Python--基础语法的学习目录

python--学习笔记7 文件格式、数据读取、储存

学习面向对象的python--类的定义

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)