scrapy使用用Xpath提取深层标签 - 代码天地

scrapy使用用Xpath提取深层标签

其他 2018-07-19 16:09:19 阅读次数: 0

在使用scrapy框架做爬虫时，有两种方式对标签内容进行提取：css和Xpath。基本的标签内容，属性提取都很容易。但对于多层嵌套的标签，如何提取到最里层的内容呢？

举个栗子：
网页HTML内容是

"<p id='test'>hello<b>world!</b></p>"

如何一下子提取到hello world!呢？
用css的话需要写两次选择：

response.css('#test::text').extract_first()
response.css('#test b::text').extract_first()

这个简单的例子还似乎可以这样做，但是实际项目中可没这么简单，往往是整篇文章都是嵌套的段落，文字，外面是p便签，里面是多层span标签，而且个数还不一致，根本无法一个个写。。。

因此，需要一种一次性提取最里层内容的方法！

用Xpath可以做到


response.xpath("string(//p[@id='test'])").extract()
# 或者
response.xpath("//p[@id='test']").xpath('string(.)').extract()

# 输出：['helloworld!']

至于xpath的用法，可以参考这篇文章的总结：
https://www.cnblogs.com/MUMO/p/5732836.html

参考文章：
http://www.cnblogs.com/qlshine/p/5926101.html
https://www.cnblogs.com/MUMO/p/5732836.html

猜你喜欢

转载自blog.csdn.net/fxjzzyo/article/details/80716685

scrapy使用用Xpath提取深层标签

python xpath提取标签内的所有内容(scrapy版本)

scrapy实战，使用内置的xpath，re和css提取值

使用 lxml 中的 xpath 高效提取文本与标签属性值

使用xpath提取页面所有a标签的href属性值

Scrapy提取多个标签的text

scrapy无法使用xpath解析？特殊网页的信息提取（1） — 百度贴吧

scrapy的xpath无法匹配tbody标签

xpath提取多个标签下的text

xpath提取 html标签的文字内容

scrapy xpath获得a标签内的br em标签文字内容

(python)Xpath如何提取html标签（HTML标签和内容）

xpath提取标签文本以及子孙标签文本

Python 分布式爬虫框架 Scrapy 4-4 xpath的使用方法以及字段提取

Markdown各标签使用用法

Scrapy学习-2-xpath&css使用

使用XPath提取xml文档数据

使用xpath提取页面数据-代码实例

使用Python：XPath提取猫眼电影

Python Xpath解析数据提取基本使用

Xpath提取一个标签里的所有文本

Python——XPath提取某个标签下所有文本

利用xpath提取标签下所有文本

scrapy的xpath，scrapy shell

xpath提取包含标签的所有文本内容 - xpath常用语法汇总

在scrapy中使用Selector提取数据

如何使用scrapy中的ItemLoader提取数据？

scrapy 使用rule LinkExtractor提取链接

scrapy中使用LinkExtractor提取链接

python Scrapy创建和使用，运行Scrapy代码，怎么用Scrapy框架获取数据，Scrapy的xpath使用教程。

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)