Python网络爬虫 -- scrapy的选择器Xpath - 代码天地

Python网络爬虫 -- scrapy的选择器Xpath

编程语言 2019-04-10 16:51:04 阅读次数: 0

Xpath简介

一般来说，使用id、name、class等属性就能对节点进行定位就能解决绝大部分解析需求，但有时候遇到以下情况，使用Xpath就更方便：

没有id、name、class等

标签的属性或者文本特征不显著

标签嵌套层次太复杂

Xpath是XMLPath的简介，基于XML树状结构，可以在整个树中寻找锁定目标节点。由于HTML文档本身就是一个标准的XML页面，因此我们可以使用XPath的语法来定位页面元素。

Xpath定位方法

一、Xpath路径

1240

Xpath路径案例

定位节点

扫描二维码关注公众号，回复： 5837813 查看本文章

1240

通配符*选择未知的节点

1240

二、使用索引

如果筛选时元素时出现多个节点，但我们想确定唯一节点。可以使用类似于列表索引的方式精确定位。

案例

1240

三、使用属性

为了让定位更精准，跟使用索引类似，我们要增加信息量，那么还可以使用属性。@符号是属性符

1240

四、常用函数

除了索引、属性外，Xpath还可以使用便捷的函数来增强定位的准确性。下面试常用的几个函数：

1240

<a class="menu_hot" href="/ads/auth/promote.html">应用推广</a>

1240

五、Xpath轴

这部分类似BeautifulSoup中的sibling、parents、children方法。

1240

猜你喜欢

转载自blog.51cto.com/14246112/2376685

Python网络爬虫 -- scrapy的选择器Xpath

Python爬虫框架 scrapy之xpath选择器 css选择器

python scrapy中的xpath和css选择器

python爬虫：scrapy框架xpath和css选择器语法

【爬虫】Python Scrapy Selectors (选择器)

Python中xpath选择器的学习

python | css选择器&xpath

Python爬虫选择器(一) xpath用法详解

Python爬虫学习笔记(XPath选择器【推荐】)

python网络爬虫（XML选择器）

python网络爬虫（CSS选择器）

Python-选择器Xpath,Css,Re

python+selenium学习笔记：xpath选择器

Python爬虫之Scrapy框架系列（10）——Scrapy选择器selector

Scrapy爬虫入门教程五 Selectors（选择器）

2.1-Python爬虫-正则/XML/XPath/CSS选择器-案例演示

【Scrapy教程】02 Xpath选择器

小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器

python3 scrapy css选择器(Selectors) 用法

python之scrapy(二)选择器的使用

【Rollo的Python之路】Scrapy Selector选择器的学习

爬虫3 css选择器和xpath选择器, selenium的使用, 爬取京东商品信息

Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式

Python爬虫（入门+进阶）学习笔记 2-3 Scrapy选择器的用法

Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法

Python之爬虫（十六） Scrapy框架中选择器的用法

Python笔记：爬虫框架Scrapy之Selector选择器数据解析详解

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

爬虫知识3：seletors选择器、Xpath、 BeautifulSoup使用案例

爬虫常用Xpath和CSS3选择器对比

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)