xpath语法和lxml模块（数据提取）----python爬虫学习 - 代码天地

xpath语法和lxml模块（数据提取）----python爬虫学习

其他 2019-07-31 11:48:04 阅读次数: 0

xpath语法：

参考w3cschool的语法格式 https://www.w3school.com.cn/xpath/index.asp

lxml库安装：

pip install lxml

在安装lxml会遇到网络不好导致安装失败的问题，就只能等待了，看人品。

或者去官网下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

库基本的使用方式

1.把网页数据丢入etree.HTML(数据)，解析生成一个对象本文称html

2.使用对象.xpth(xpath语法)进行对数据的提取，对提取出的数据可能需要解码通过 decode(解码方式)进行解码以上方法即可提取出想要的数据了

补充：xpath语法中使用text()可获取该标签下对应的文字信息，使用string()可以提取全部

实例

爬取我博客的所有随笔标题：

#获取博客的源码
#我有个习惯，在爬取子站时先获取一次主站的cookie
import lxml,requests
url_get_cookies='https://www.cnblogs.com/'
#养成个好习惯，headers头每次爬虫都写上
header={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
get_cookie=requests.session()
get_cookie.get(url=url_get_cookies,headers=header)
#以上步骤已经获取完了主站的cookie
url_myblog='https://www.cnblogs.com/lcyzblog/'
html_blog=get_cookie.get(url_myblog)
#这一步获取了我主页的源码
html_blog=html_blog.text
from lxml import etree
myblog_html=etree.HTML(html_blog)
get_myblog_title="//div[@class='postTitle']/a/text()"
myblog_html.xpath(get_myblog_title)
last_get=myblog_html.xpath(get_myblog_title)
for title_myblog in last_get:
	print(title_myblog)

网页源码分析：可以看见我们的每个随笔的标题都是被放在一个class为post-Title的div下的a标签中

　　

猜你喜欢

转载自www.cnblogs.com/lcyzblog/p/11275188.html

xpath语法和lxml模块（数据提取）----python爬虫学习

Python 爬虫，lxml模块，XPath语法提取页面数据

Python爬虫 XPath语法和lxml模块

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

Python爬虫基础——XPath语法的学习与lxml模块的使用

【Python】数据提取xpath和lxml模块（豆瓣电影排行榜的爬虫）

【Python】数据提取xpath和lxml模块（糗事百科的爬虫）

python爬虫之数据解析（二）：XPath语法和lxml模块

XPath语法和lxml模块

[Python爬虫] 六、数据提取之XPath与lxml类库

python3爬虫学习之数据提取之lxml与xpath

python爬虫知识----数据提取----Xpath和lxml、BeautifulScoup4、正则（二）

数据解析之XPath语法和lxml模块

【python】——爬虫03 数据提取[jsonpath模块、lxml模块]

05_lxml模块介绍/通过XPath从html和xml中提取数据/二手房爬虫练习

python爬虫之Xpath和lxml学习笔记03

xpath语法和lxml库的学习

Python爬虫之lxml库和XPath

Python爬虫5：Lxml库、Xpath语法与爬虫

Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）

小白学爬虫（五）-- 数据提取之xpath(lxml)

Python爬虫利器三之Xpath语法与lxml库的用法

Python爬虫利器Xpath语法与lxml库的用法

Python 爬虫之数据解析模块lxml基础（附：xpath和解析器介绍）

学习笔记(01):21天搞定分布式Python网络爬虫-xpath-在lxml中使用xpath语法

python 爬虫（七）lxml模块 + lxml数据提取（字符串的xml/html文件--转换--element对象--转换--字符串）调用XPath方法筛选数据 + 案例（扇贝酷狗网易云音乐）

数据提取-lxml模块

Python库：lxml——XPath语法

Python lxml 库与 XPath 语法

python爬虫（三）xpath与lxml

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)