Spider学习笔记（一）:xpath基础操作 - 代码天地

Spider学习笔记（一）:xpath基础操作

其他 2018-08-29 18:11:20 阅读次数: 0

# XPath
XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言。XPath基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力。

# 什么是 XPath?
- XPath 使用路径表达式在 XML 文档中进行导航
- XPath 包含一个标准函数库
- XPath 是 XSLT 中的主要元素
- XPath 是一个 W3C 标准

xpath基础操作样例（使用xpath打印的都是列表）

import lxml
from lxml import etree


html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

<div>
    <ul class="ul">
        <li class="li">1</li>
        <li id="li2">2</li>
        <li class="li">3</li>
        <li class="li">1</li>
        <li id="li5">2</li>
        <li class="li">3</li>
    </ul>
</div>

<ul class="ul">
        <li class="li">1</li>
        <li id="li2">2</li>
        <li class="li">3</li>
</ul>

<p class="ul"></p>
</body>
</html>
'''
# mytree = lxml.etree.parse('./xpath.html')

mytree = lxml.etree.HTML(html)

print(mytree)
# / 从根开始
print(mytree.xpath('/html/head/title/text()'))

# // 所有
print(mytree.xpath('/html/body/div/ul'))
print(mytree.xpath('//ul'))

# . 当前
ul = mytree.xpath('//ul')[0]

li = ul.xpath('./li')
print(li)


# 谓语

li2 = mytree.xpath('//li[@id="li2"]')
for l in li2:
    print(l.text)
    print(l.xpath('./text()'))


l3 = mytree.xpath('//div//li[3]/text()')
print(l3)

# last() first()
li3 = mytree.xpath('//div//li[last()]/text()')
print(li3, '===')


# 倒数第二个
print(mytree.xpath('//div//li[last()-1]/text()'), '----')
# 从第三个li开始

# position()定位 < > = >= <= !=
print(mytree.xpath('//div//li[position() != 2]'))

# 所有class=ul  | 或
print(mytree.xpath('//ul[@class="ul"] | //p[@class="ul"]'),'*****')
print(mytree.xpath('//*[@class="ul"]'))

猜你喜欢

转载自blog.csdn.net/xiaohuoche175/article/details/81746125

Spider学习笔记（一）:xpath基础操作

spider----xpath学习

Spider学习笔记（九）:Scrapy框架的基础操作

XPath学习笔记（一）

Spider学习笔记（十）:一个Scrapy框架实战操作

Spider学习笔记（八）:matplotlib

XPath基础笔记

MATLAB学习笔记（一）基础操作

xpath基础学习

XPath学习笔记

XPath学习笔记（二）

Spider学习笔记（十一）:获取图片并下载

Spider学习笔记（七）:词云（wordcloud）

Spider学习笔记（六）:爬虫部署

Scrapy 学习笔记 - 爬虫类 Spider

Python Spider学习笔记（一）：爬取B站视频基本信息

Spider（一）

XML学习笔记3 XPath

XPath解析网页学习笔记

python学习笔记之基础操作（一）整数常用方法

UCOS学习笔记（一）操作系统基础知识

ROS学习笔记一（Linux系统基础操作）

爬虫基础框架之xpath(一) --- xpath基础

linux基础操作（学习笔记）

【学习笔记】AD基础操作

Spider-scrapy 中的 xpath 语法与调试

Spider学习笔记（五）:抓取51所有城市所有招聘信息（每个城市的每一页）

Mac-Python 零基础爬虫学习笔记（3.2）：XPath的语法

Python爬虫基础学习，从一个小案例来学习xpath匹配方法

Scrapy学习笔记-使用signals来监控spider的状态

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)