Python爬虫：lxml模块分析并获取网页内容 - 代码天地

Python爬虫：lxml模块分析并获取网页内容

其他 2018-12-29 09:00:57 阅读次数: 0

运用css选择器：

# -*- coding: utf-8 -*-
from lxml import html
page_html = '''
<html><body>
<input id="input_id" value="input value" name="input_a">
</body></html>
'''
page_tree = html.fromstring(page_html.decode('utf-8'))
ele = page_tree.cssselect('#input_id')  # 用css选择器的id选择器获取网页内容
print html.tostring(ele[0]) # <input id="input_id" value="input value" name="input_a">
print ele         # [<InputElement 30133f0 name='input_a' type='text'>]
print ele[0]      # <InputElement 30133f0 name='input_a' type='text'>
print ele[0].get('value')   # input value

获取标签里的内容：

# -*- coding: utf-8 -*-
from lxml import html
page_html = '''
<html><body>
<div class="cl">DIV1</div>
<div class="cl">DIV2</div>
</body></html>
'''
page_tree = html.fromstring(page_html.decode('utf-8'))
ele = page_tree.cssselect('body')[0].findall("div") # findall寻找所有的直接子标签
print ele[0].text_content().strip() # DIV1

若提示如下错误：
from lxml import html
ImportError: DLL load failed: %1 is not a valid Win32 application.
尝试重新安装lxml模块：

python -m pip uninstall lxml
python -m pip install lxml==3.6.0

猜你喜欢

转载自blog.csdn.net/xuejianbest/article/details/85164134

Python爬虫：lxml模块分析并获取网页内容

Python爬虫：使用lxml解析网页内容

python爬虫网页解析之lxml模块

11月10日python爬虫分析网页的模块lxml和Beautiful Soup

【python爬虫】安装lxml模块

Python爬虫之路-lxml模块

爬虫基础：python获取网页内容

爬虫网页分析——XPath与lxml的使用

python网页内容提取神器lxml

python3爬虫lxml模块的安装

Python爬虫 XPath语法和lxml模块

【python爬虫笔记】 lxml requests selenium模块

Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

Python爬虫requests添加头部和代理获取网页内容

python 爬虫获取网页 html 内容以及下载附件的方法

爬虫——lxml 模块

python获取网页内容

python 获取网页的内容

【python】——爬虫03 数据提取[jsonpath模块、lxml模块]

Python 爬虫网页，解析工具lxml.html(一)

Python爬虫网页，解析工具lxml.html（二）

python爬虫lxml-4.5.0(爬取网页信息安装)

python爬虫之xpath和lxml解析内容

Python 爬虫，lxml模块，XPath语法提取页面数据

xpath语法和lxml模块（数据提取）----python爬虫学习

Python爬虫基础——XPath语法的学习与lxml模块的使用

爬虫基础：获取网页中的指定内容

Python——获取网页文本内容

Python爬虫 - 获取网页编码

Python爬虫项目：爬虫爬取BeautifulSoup模块分析网页数据

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)