python库——Lxml - 代码天地

python库——Lxml

其他 2019-03-02 19:46:21 阅读次数: 0

版权声明：YESHAO https://blog.csdn.net/qq_38929220/article/details/83623057

Lxml模块使用C语言编写，解析速度比BeautifulSoup要快。用于处理Python语言中的XML和HTML。
可直接命令行pip install lxml安装。

Lxml爬虫使用

将有可能不合法的HTML解析为统一格式

>>>import lxml.html
>>>broken_html = '<ul class=shop><li>Price<li>Number</ul>'
>>>tree = lxml.html.fromstring(broken_html) #解析HTML
>>>fixed_html = lxml.html.tostring(tree,pretty_print=True)
>>>print(fixed_html)
<ul class="shop">
 <li>Price</li>
 <li>Number</li>
</ul>

使用CSS选择器选择元素
lxml有几种不同的方法选择元素，CSS选择器更加简洁并且可以在解析动态内容时得以复用。
css选择器的安装：pip install cssselect
例（爬取中国天气网天气）：

import lxml.html
import urllib.request

url = 'http://www.weather.com.cn/weather/101020100.shtml'
#模拟成浏览器
headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
html = urllib.request.urlopen(url).read()
tree = lxml.html.fromstring(html)
td = tree.cssselect('p.tem')[0]
wea=td.text_content()
print(wea)

CSS选择器语法

选择所有标签：*
选择< a>标签：a (<>中字母任意，根据实际情况）
选择所有class="link"的元素：.link
选择class="link"的< a>标签：a.link
选择id="home"的< a>标签：a#home
选择父元素为< a>标签的所有< b>子标签：a > b
选择< a>标签内部所有< b>标签：a b
选择title属性为"Home"的所有< a>标签：a[title=Home]

性能分析

Lxml的性能和正则表达式几乎一样好，而且使用简单。相比之下此方法既快速又健壮，适合在各种场景使用。

部分内容参照自《用python写网络爬虫》

猜你喜欢

转载自blog.csdn.net/qq_38929220/article/details/83623057

python——解析库lxml

python库——Lxml

Python的lxml库学习

Python库：lxml——XPath语法

Python lxml 库与 XPath 语法

python爬虫6：lxml库

python 3.6 lxml标准库lxml的安装及etree的使用注意

python3解析库lxml

Python爬虫(十二)_XPath与lxml类库

Python爬虫(十)_XPath与lxml类库

python爬虫6--lxml解析库

python3.6安装lxml库

python中lxml库与Xpath语法

Python爬虫之lxml库和XPath

10-python爬虫之lxml库

lxml库

Ubuntu下的python的lxml库和其他库的安装

【Python】windows电脑 python3.6安装lxml库

Python爬虫利器三之Xpath语法与lxml库的用法

python爬虫三：bs4库lxml

Python开发【第*篇】【Xpath与lxml类库】

python用lxml库直接读写office excel文件

python爬虫系列(3.2-lxml库的使用)

python爬虫7——XPath与lxml类库、xpath helper插件

Python爬虫利器Xpath语法与lxml库的用法

python简单爬虫用lxml库解析数据

[Python爬虫] 六、数据提取之XPath与lxml类库

Python爬虫5：Lxml库、Xpath语法与爬虫

Python3爬虫lxml解析库安装（转载）

Python lxml库提取并保存网页正文部分

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)