python 爬虫入门——xpath获取文本信息

使用Xpath语法

看前端一组HTML内容:

页面信息
htm = """
<div>
	<ul>
		<li class="a1"><a href="network1.html">第一</a></li>
		<li class="a2"><a href="network2.html">第二</a></li>
		<li class="a3"><a href="network3.html">第三</a></li>
		<li class="a4"><a href="network4.html">第四</a></li>
		<li class="a5"><a href="network5.html">第五</a></li>
		<li class="a6"><a href="network6.html">第六</a></li>
	</ul>
</div>
"""

我们试一下 lxml 中etree

import requests
from lxml import etree

# 使用HTML()方法  初始化etree
selector = etree.HTML(htm)
print(selector)

先看一下是什么

<Element html at 0x11f0b48>

没关系,看着像是被折叠了,我们打开看一下

for i in selector:
    for j in i:
        for k in j:
            for l in k:
                print(l)
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>

看着可以一步步打开折叠的内容
我们同样可以是用xpath来解析它。

li = selector.xpath('//div/ul/li')
print(li)
[<Element li at 0x39f3f30>, <Element li at 0x39f3f08>, <Element li at 0x39f3ee0>, <Element li at 0x39f3eb8>, <Element li at 0x39f3e90>, <Element li at 0x39f3be8>]

下边只要读取文本格式,就可以获取文字信息了。

for i in li:
    print(i.text)
    
第一
第二
第三
第四
第五
第六

这样,我们python爬虫爬取图片信息就完了。

能跑得动的,记得点个赞呗。

后期会有其他方法更新,关注一波呗

猜你喜欢

转载自blog.csdn.net/ailuoyi521/article/details/106759509