python小白学习记录运用lxml的xpath解析html文件 - 代码天地

python小白学习记录运用lxml的xpath解析html文件

其他 2020-02-09 18:01:29 阅读次数: 0

 1 from lxml import etree
 2 text = "<div><p>nmsl</p><span>nmsl</span></div>"
 3 def htmlstree(text):
 4     html = etree.HTML(text)
 5     result = etree.tostring(html)
 6     print(result)
 7     return result.decode('utf-8')
 8 #解析html字符串并且会为标签自动加上<html><body></body></html>
 9 def parseetree():
10     parser = etree.HTMLParser(encoding='utf-8')
11     html = etree.parse("index111.html",parser=parser)
12     result = etree.tostring(html,encoding='utf-8').decode("utf-8")
13     print(result)
14 #解析xml 由于某写html标签会不全用普通的xml解析器会出错 如<br/>  所以要指定html解析器
15 if __name__ == '__main__':
16     parseetree()

以上为etree的使用范例

分别解析了html字符串和html文件

from lxml import etree
def parseetree():
    parser = etree.HTMLParser(encoding='utf-8')
    html = etree.parse("index111.html",parser=parser)
    trs = html.xpath("//a[@onclick][@id]")
    for tr in trs:
        result = etree.tostring(tr,encoding='utf-8').decode("utf-8")
        print(result)
def parseetree1():
    parser = etree.HTMLParser(encoding='utf-8')
    html = etree.parse("index111.html",parser=parser)
    tr = html.xpath("//a[@onclick][@id]")[3]
    result = etree.tostring(tr,encoding='utf-8').decode("utf-8")
    print(result)
if __name__ == "__main__":
    parseetree()
    print("***************")
    parseetree1()

以上为运用xpath来对html进行解析

以下是运行结果

附：https://www.w3school.com.cn/xpath/xpath_syntax.asp xpath语法

猜你喜欢

转载自www.cnblogs.com/jswf/p/12287819.html

python小白学习记录运用lxml的xpath解析html文件

【python】xpath解析html文件报错：lxml.etree.XPathEvalError: Invalid expression

Python3：使用lxml库来解析xml文件和html文件(使用xpath方式解析)

python爬虫系列四：html解析大法-lxml-xpath

8.3.1、Python__Xpath解析数据安装lxml，xpath解析文件，解析本地文件，xpath基本语法

python 使用 lxml.etree.HTML.xpath 解析网页不完整

python xpath解析html

小白学习HTML记录2

小白学习html记录1

python爬虫之xpath和lxml解析内容

Python《使用lxml解析xpath--爬取konachan》

python中使用lxml的parse方法解析html文件报错Opening and ending tag mismatch

【Python爬虫学习笔记4】结合Xpath与lxml库解析数据

【Python爬虫学习实践】基于Xpath和lxml库解析网站

python 爬虫（七）lxml模块 + lxml数据提取（字符串的xml/html文件--转换--element对象--转换--字符串）调用XPath方法筛选数据 + 案例（扇贝酷狗网易云音乐）

Python 爬虫之数据解析模块lxml基础（附：xpath和解析器介绍）

python爬虫精选06集（xpath解析、lxml解析库、案例实战）

Python使用XPath解析HTML文档

Python使用XPath解析HTML的方法详解

xPath解析HTML学习速成教程

python的lxml和xPath用法

python爬虫（三）xpath与lxml

Python库：lxml——XPath语法

Python lxml 库与 XPath 语法

Python3 HTML数据解析(lxml/BeautifulSoup/JsonPath)

Python 爬虫网页，解析工具lxml.html(一)

Python爬虫网页，解析工具lxml.html（二）

xpath解析html文件报错：lxml.etree.XPathEvalError: Invalid expression

python 爬虫 2 （网页解析bs4、lxml、xpath、正则）

python爬虫之数据解析（二）：XPath语法和lxml模块

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)