Scrapy提取多个标签的text - 代码天地

Scrapy提取多个标签的text

其他 2019-01-09 08:50:53 阅读次数: 0

对于要提取嵌套标签所有内容的情况, 使用string或//text(), 注意两者区别

>>> from scrapy import Selector
>>> 
>>> doc = "<p id='test'>hello<b>world!</b></p>"
>>> 
>>> sel = Selector(text=doc, type='html')
>>> 
>>> sel.xpath("/p[@id='test']/text()").extract()
[]

使用text()

>>>#使用两个反斜杠
>>> sel.xpath("//p[@id='test']/text()").extract()
[u'hello']
>>> #这样提取出来是一个列表, 
>>> sel.xpath("//p[@id='test']//text()").extract()
[u'hello', u'world!']
>>>

使用string

>>> sel.xpath("//p[@id='test']").xpath('string(.)').extract()
[u'helloworld!']
>>> 
>>> sel.xpath("string(//p[@id='test'])").extract()
[u'helloworld!']
>>>

猜你喜欢

转载自blog.csdn.net/feifly329/article/details/86076246

Scrapy提取多个标签的text

xpath提取多个标签下的text

scrapy使用用Xpath提取深层标签

python xpath提取标签内的所有内容(scrapy版本)

scrapy 提取html 提取正文

Scrapy text filter

scrapy 提取元素

Scrapy 运行多个爬虫

多个scrapy同时执行

view和text标签

rich-text标签

scrapy框架Selector提取数据

scrapy 正则汉字的提取方法

评论标签提取

提取图片标签

text嵌套text标签，点击事件失效

scrapy顺序执行多个爬虫

scrapy定时启动多个爬虫

Scrapy_多个spider并行

Scrapy同时启动多个爬虫

c标签多个条件

Hexo创建多个标签

渲染标签 - v-text

从html中提取img标签

Scrapy框架中selector.css方法和selector.xpath方法，如何获取标签属性(含text文本)的三种方法（scrapy1.6版本）

Scrapy 学习笔记（一）数据提取

Scrapy爬虫中的链接提取器LinkExtractor

scrapy 中用selector来提取数据的用法

在scrapy中使用Selector提取数据

如何使用scrapy中的ItemLoader提取数据？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)