爬虫笔记：xpath和lxml（十二） - 代码天地

爬虫笔记：xpath和lxml（十二）

其他 2020-05-18 23:30:41 阅读次数: 0

XPATH

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

根据元素的路径找元素。http://www.w3school.com.cn/xpath/index.asp具体介绍可以看这个。

lxml

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML

解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：http://lxml.de/index.html
需要安装C语言库，可使用 pip 安装：pip install lxml （或通过wheel方式安装）

可以通过lxml来操作网页的xpath，获取到对应的数据或者节点。

from lxml import etree
import requests
text=requests.get('http://www.baidu.com').text#打开百度，获取到html代码
html=etree.HTML(text)#传一个字符串格式的html
html=etree.parse('a.html')#这个parse方法可以传一个文件名，或者一个文件对象，他会自动解析
html.xpath("/tag/a[@href='xxx']")#找到某个节点下面的a标签href属性为xx的，从根节点往下找
html.xpath("//a[@href='xxx']") #//2个/代表不管a标签在哪个节点下面，只要herf为xx的就找到
html.xpath("//div[@class='xxx']//a[@class='cls']") #找到所有div标签class为xx的下面的所有a标签class为cls的
html.xpath("//div[@class='note']//a/@href") #找到div class为note下面的所有a标签，然后取到它的href属性里面的值
html.xpath("//div[contains(@id,'qiushi_tag_')]") #模糊查询，查到id里面包含qiushi_tag的所有元素
# xpath返回的都是一个list，如果你确定只返回一个元素的话，就可以直接取第一个元素
# 如果不确定的话，那就需要循环了
title = html.xpath('//div[@class="title-text c-font-medium c-color-t"]//text()') 
print(title)

　　

from lxml import etree
import requests
text=requests.get('http://www.baidu.com').text#打开百度，获取到html代码
html=etree.HTML(text)#传一个字符串格式的html
title = html.xpath('//div[@class="title-text c-font-medium c-color-t"]//text()') 
print(title)

　　

猜你喜欢

转载自www.cnblogs.com/wxcx/p/12913710.html

爬虫笔记：xpath和lxml（十二）

Python爬虫(十二)_XPath与lxml类库

python爬虫之Xpath和lxml学习笔记03

Python爬虫 XPath语法和lxml模块

Python爬虫之lxml库和XPath

XPATH(lxml)爬虫测试

xpath语法和lxml模块（数据提取）----python爬虫学习

python爬虫之xpath和lxml解析内容

爬虫（7） lxml和xpath2020-12-28

爬虫基础——正则、xpath、lxml

python爬虫（三）xpath与lxml

python的lxml和xPath用法

lxml和xpath结合使用

xpath和lxml类库

XPath语法和lxml模块

爬虫利器——lxml模块(应用xpath技术)

爬虫网页分析——XPath与lxml的使用

Python爬虫(十)_XPath与lxml类库

python爬虫攻略（6）：lxml与xpath

【Python爬虫学习笔记4】结合Xpath与lxml库解析数据

Python学习笔记--Python 爬虫入门 -17-8 正则,xml+xpath+lxml

学习笔记(01):21天搞定分布式Python网络爬虫-xpath-在lxml中使用xpath语法

python爬虫7——XPath与lxml类库、xpath helper插件

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

【Python】数据提取xpath和lxml模块（糗事百科的爬虫）

Python爬虫教程-22-lxml-etree和xpath配合使用

【Python爬虫学习实践】基于Xpath和lxml库解析网站

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

python爬虫系列(3.4-使用xpath和lxml爬取伯乐在线)

python爬虫知识----数据提取----Xpath和lxml、BeautifulScoup4、正则（二）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)