python网页内容提取神器lxml - 代码天地

python网页内容提取神器lxml

其他 2020-04-11 16:59:13 阅读次数: 0

一、Xpath是什么

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

XPath 使用路径表达式在 XML 文档中进行导航

XPath 包含一个标准函数库
XPath 是 XSLT 中的主要元素
XPath 是一个 W3C 标准

二、XPath在python内容提取中的常用规则

1.选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：
在这里插入图片描述

示例：

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：579817333 
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# -*- coding: utf-8 -*-
from lxml import etree
import requests
resp = requests.get('http://www.zuowen.com/dan'
                    'yuanzw/xiaoxueyuwen/rj3s/')
resp.encoding = 'gbk'
html = resp.text
doc = etree.HTML(html)
# 选取网页标题
print(doc.xpath('//title')[0].text) # “//”从匹配选择的当前节点选择文档中的节点
print(doc.xpath('/html/head/title')[0].text) # “/”从根节点开始提取

MHyourh

发布了705 篇原创文章 · 获赞 862 · 访问量 150万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/sinat_38682860/article/details/105455038

python网页内容提取神器lxml

Python：使用readability-lxml 提取网页标题和主体内容

Python爬虫：使用lxml解析网页内容

Python lxml库提取并保存网页正文部分

Python爬虫：lxml模块分析并获取网页内容

使用readability-lxml 提取网页标题和主体内容 - 尝试

使用readability-lxml 提取网页标题和主体内容 - 尝试

python 爬虫 css提取网页内容

python爬虫 selector xpath提取网页内容

Python 爬虫网页内容提取工具xpath

用lxml的xpath演示爬虫提取笑话集网页其中的标题，url，浏览数，日期，笑话内容

网页提取内容

【Python】提取网页正文内容的相关模块与技术

python爬虫网页解析之lxml模块

用lxml的xpath演示爬虫提取其中糗事百科网页的用户头像，作者，帖子内容，点赞数和评论数的提取，并且把提取的数据存入csv

python 日志内容提取

Python 爬虫，lxml模块，XPath语法提取页面数据

xpath语法和lxml模块（数据提取）----python爬虫学习

[Python爬虫] 六、数据提取之XPath与lxml类库

【python】——爬虫03 数据提取[jsonpath模块、lxml模块]

数据提取-lxml模块

Python爬虫万金油，使用工具goose快速提取网页内容

python 提取网页源码中注释内容非常规方法

Python 爬虫网页，解析工具lxml.html(一)

Python爬虫网页，解析工具lxml.html（二）

python 使用xpath/lxml爬取网页表格并存CSV

python爬虫lxml-4.5.0(爬取网页信息安装)

Python抓取网页内容

python获取网页内容

python 获取网页的内容

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)