【Python爬虫】解析xpath——尚硅谷

企业开发 2023-06-25 03:47:30 阅读次数: 0

1.xpath

xpath的使用：

注意：提前安装xpath插件

1.安装lxml库

pip install lxml ‐i https://pypi.douban.com/simple

2.导入lxml.etree

from lxml import etree

3.etree.parse() 解析本地文件

html_tree = etree.parse('XX.html')

4.etree.HTML() 解析服务器响应文件

html_tree = etree.HTML(response.read().decode('utf‐8')

5.html_tree.xpath(xpath路径)

2.xpath基本语法

路径查询

//：查找所有子孙节点，不考虑层级关系

/ ：找直接子节点

谓词查询

//div[@id]

//div[@id="maincontent"]

属性查询

//@class

模糊查询

//div[contains(@id, "he")]

//div[starts‐with(@id, "he")]

内容查询

//div/h1/text()

逻辑运算

//div[@id="head" and @class="s_down"]

//title | //pric


from lxml import etree

#xpath解析
# 1.本地文件
# 2.服务器响应的数据 response.read().decode('utf-8')  etree.HTML

tree=etree.parse('1.xpath的基本使用.html')

#tree.xpath('xpath路径')

#查找url下面的li
#li_list=tree.xpath('//body//li')

#查找所有id的属性的Li标签
#li_list=tree.xpath('//ul/li[@id]/text()')

#找到id为l1的li标签  注意引号问题
#li_list=tree.xpath('//ul/li[@id="l1"]/text()')

#查找到id为l1标签的class的属性值
#li=tree.xpath('//ul/li[@id="l1"]/@class')

#查询id中包含l的li标签
#li_list=tree.xpath('//ul/li[contains(@id,"l")]/text()')

#查询id的值以l开头的li标签
#li_list=tree.xpath('//ul/li[starts-with(@class,"c")]/text()')

#查询id为l1和class为c1
li_list=tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')

#判断列表的长度
print(li_list)
print(len(li_list))

猜你喜欢

转载自blog.csdn.net/qq_48108092/article/details/126133969

【Python爬虫】解析xpath——尚硅谷

【Python爬虫】urllib库——尚硅谷

Python爬虫：xpath解析

python爬虫-xpath解析

尚硅谷例程解析

python爬虫之xpath解析

Python爬虫 xpath解析基础

python爬虫数据解析xpath

【Python】爬虫-----数据解析之Xpath解析

python 爬虫（xpath解析网页，下载照片）

Python爬虫：数据解析之 xpath

Python爬虫之旅_(数据解析)_Xpath

Python 爬虫数据解析--xpath案例

Python 爬虫 xpath 数据解析基本用法

Python爬虫进行xpath解析实战

Python爬虫实战之xpath解析

Python爬虫学习笔记（四）————XPath解析

Java爬虫--Xpath解析

爬虫解析库xpath

爬虫09——xpath解析

Python爬虫解析库之xpath解析库详解

[ python] 爬虫笔记（五) 数据解析之xpath解析

Python爬虫：chrome网页解析工具-XPath Helper

python爬虫之html解析Beautifulsoup和Xpath

python爬虫系列之 xpath：html解析神器

python爬虫系列四：html解析大法-lxml-xpath

风火编程--python爬虫几个xpath解析方法

python爬虫解析必备技能 xpath用法和实战

Python爬虫(四) | 解析库--BeautifulSoup、Xpath、pyquery

python爬虫基础04-网页解析库xpath

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)