python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy - 代码天地

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy

其他 2019-01-20 19:24:43 阅读次数: 0

scrapy的最通用的爬虫流程：UR²IM

　　U：URL

　　R²：Request 以及 Response

　　I：Item

　　M：More URL

在scrapy shell中打开服务器一个网页

　　cmd中执行：scrapy shell http://www.baidu.com （可以使用exit()退出）

　　

　　

此时，scrapy执行一个默认的GET请求，并得到一个状态码为200的响应

可以使用response.body打印页面源码（或部分字符）

例：response.body[:50]

　　

同时，也可使用response.xpath(' ')来测试XPath表达式的效果

例：response.xpath('//*[@id="su"]') 获取百度一下按钮处的源码

　　

　　response.xpath('//*[@id="su"]').xpath('.//@value') 获取上述局部源码中的value属性值

　　注：.//@value是相对XPath表达式；用于获取selector的得到的局部源码中的信息

　　

　　response.xpath('//*[@id="su"]').xpath('.//@value').extract() 获取上述结果中的源码（源码不等于selector，等于data值）

　　

下一步操作是：从响应中将数据抽取到Item的字段中（通常使用/text()获取文本字段）

　　通常，我们使用//*[@id="su"][1]这种形式。

　　目的：为防止结尾某些细微之处的嵌套信息没有注意到

猜你喜欢

转载自www.cnblogs.com/jpapplication/p/10295774.html

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy

python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy

python应用：爬虫框架Scrapy系统学习第一篇——xpath详解

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

Python学习---爬虫学习[scrapy框架初识]

【Rollo的Python之路】Python 爬虫系统学习 (七) Scrapy初识

Scrapy爬虫框架初识

爬虫scrapy框架学习（三）

python爬虫框架——Scrapy学习

Python Scrapy爬虫框架学习

python爬虫框架Scrapy学习

scrapy学习第三篇：创建spider_redis配置文件

爬虫框架Scrapy 之(一) --- scrapy初识

【第三天】Python学习：初学scrapy框架

scrapy爬虫框架(三)

Python爬虫-Scrapy框架（序篇）

【Rollo的Python之路】Python 爬虫系统学习 (十一) Scrapy Shell

【Rollo的Python之路】Python 爬虫系统学习 (九) Scrapy 构造下一页

scrapy 框架 python 爬虫

python爬虫-scrapy框架

python爬虫scrapy框架

Python爬虫框架—Scrapy

Python爬虫框架Scrapy

python爬虫--scrapy框架

python：爬虫：Scrapy框架

Python爬虫---scrapy框架

Python爬虫---scrapy框架

Python爬虫—scrapy框架

scrapy爬虫框架学习

【python学习】scrapy爬虫框架学习

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)