python 爬虫入门——xpath获取文本信息 - 代码天地

python 爬虫入门——xpath获取文本信息

其他 2020-06-19 10:24:26 阅读次数: 0

使用Xpath语法

看前端一组HTML内容：

页面信息
htm = """
<div>
	<ul>
		<li class="a1"><a href="network1.html">第一</a></li>
		<li class="a2"><a href="network2.html">第二</a></li>
		<li class="a3"><a href="network3.html">第三</a></li>
		<li class="a4"><a href="network4.html">第四</a></li>
		<li class="a5"><a href="network5.html">第五</a></li>
		<li class="a6"><a href="network6.html">第六</a></li>
	</ul>
</div>
"""

我们试一下 lxml 中etree

import requests
from lxml import etree

# 使用HTML()方法  初始化etree
selector = etree.HTML(htm)
print(selector)

先看一下是什么

<Element html at 0x11f0b48>

没关系，看着像是被折叠了，我们打开看一下

for i in selector:
    for j in i:
        for k in j:
            for l in k:
                print(l)

<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>

看着可以一步步打开折叠的内容
我们同样可以是用xpath来解析它。

li = selector.xpath('//div/ul/li')
print(li)

[<Element li at 0x39f3f30>, <Element li at 0x39f3f08>, <Element li at 0x39f3ee0>, <Element li at 0x39f3eb8>, <Element li at 0x39f3e90>, <Element li at 0x39f3be8>]

下边只要读取文本格式，就可以获取文字信息了。

for i in li:
    print(i.text)

第一
第二
第三
第四
第五
第六

这样，我们python爬虫爬取图片信息就完了。

~~能跑得动的，记得点个赞呗。~~

后期会有其他方法更新，关注一波呗

猜你喜欢

转载自blog.csdn.net/ailuoyi521/article/details/106759509

python 爬虫入门——xpath获取文本信息

Python爬虫入门免费获取天气信息

python爬虫之xpath入门

Python爬虫入门：使用urllib模块获取请求页面信息

Python爬虫入门实战3：获取CSDN个人博客信息

Python爬虫获取楼盘信息

python爬虫：获取电影信息~

Python爬虫-爬取豆瓣信息(selenium+xpath)

Python 爬虫小练习：基于 XPath 的表格信息爬取

python爬虫学习（十四）xpath获取不同标签城市名

Python爬虫-xpath

python 爬虫 XPath

python爬虫xpath的语法

python爬虫 xpath使用

python爬虫---XPath介绍

python爬虫教程：Xpath

python爬虫(二)-------------------Xpath

python笔记(爬虫 xpath)

python爬虫xpath教程

Python爬虫--Xpath（二）

Python爬虫--Xpath

【python爬虫】Xpath

python爬虫基础 - XPATH

python爬虫之xpath

Python爬虫：xpath解析

python爬虫-xpath解析

Python爬虫从入门到进阶(4)之xpath的使用

从入门到放弃：python爬虫系列-xpath解析库的使用

Python爬虫入门之如何在豆瓣中获取自己喜欢的TOP N电影信息

Python爬虫入门7：HTML报文解析获取网页基本信息

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)