python中lxml库与Xpath语法 - 代码天地

python中lxml库与Xpath语法

其他 2020-02-15 23:34:10 阅读次数: 0

Xpath表达式：

/　　描述：从根节点选取

//　　描述：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置

.　　描述：选取当前节点

..　　描述：选取当前节点的父节点

@　　描述：选取属性

定位目标标签思路：“先抓大再抓小”，先找到循环节点，再细分

给出一个简单例子如下：

from lxml import etree
import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
url = 'http://a.qidian.com/?page=1'
res = requests.get(url,headers=headers)
selector = etree.HTML(res.text)
#print(res.text)
'''
str=selector.xpath('/html/body/div[1]/div[5]/div[2]/div[2]/div/ul/li[1]/div[2]/p[1]/a[1]/text()')#通过/text()可以获得标签中的文字信息
print(str)
'''
infos = selector.xpath('//ul[@class="all-img-list cf"]/li')
print(infos)
for info in infos:
    author = info.xpath('div[2]/p[1]/a[1]/text()')[0]
    print(author)

网站：

错误点：

author = info.xpath('/div[2]/p[1]/a[1]/text()')[0]

开始的时候，一直多加了一个单斜杠，找了好久这个错才找出来，一直以为我找的Xpath路径出错了。

正确：

author = info.xpath('div[2]/p[1]/a[1]/text()')[0]

猜你喜欢

转载自www.cnblogs.com/sengzhao666/p/12315155.html

python中lxml库与Xpath语法

Python库：lxml——XPath语法

Python lxml 库与 XPath 语法

Xpath语法与lxml库

Lxml库及Xpath语法详解

Python爬虫利器三之Xpath语法与lxml库的用法

Python爬虫利器Xpath语法与lxml库的用法

Python爬虫5：Lxml库、Xpath语法与爬虫

xpath语法和lxml库的学习

Python爬虫 XPath语法和lxml模块

利用Lxml库中xpath语法爬取异步加载网页中图片并存入mongodb

Python爬虫(十二)_XPath与lxml类库

Python爬虫(十)_XPath与lxml类库

Python爬虫之lxml库和XPath

芝麻HTTP：Python爬虫利器三之Xpath语法与lxml库的用法

python中lxml模块下的xpath用法

python爬虫7——XPath与lxml类库、xpath helper插件

请求数据分析 xpath语法与lxml库

XPath与lxml类库

Python 爬虫，lxml模块，XPath语法提取页面数据

xpath语法和lxml模块（数据提取）----python爬虫学习

Python爬虫基础——XPath语法的学习与lxml模块的使用

lxml中的Xpath的使用

XPath语法和lxml模块

Python爬虫从入门到精通基础篇(05)P20-P23lxml和xpath结合使用详解lxml库xpath简介以及工具安装xpath语法详解

python库的解析--xpath语法

Python开发【第*篇】【Xpath与lxml类库】

[Python爬虫] 六、数据提取之XPath与lxml类库

xpath和lxml类库

五、Xpath与lxml类库

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)