xpath提取 html标签的文字内容

问题描述:

做爬虫的过程中经常需要对html标签的文字内容进行提取,有几种情况
1.提取属性的值,2.提取标签的值,3.提取段落的所有文字

本文用的是 scrapy 的框架,用 response 做响应

1.提取属性的值
<a title="这是一个标题">

response.xpath("//a/@title").get(),可以直接得到 title 的值为:这是一个标题

注:get 方法是等同于extract()[0],getall 方法等同于extract()
官方文档1.5以后推荐使用 get 系列方法代替原来的 extract 系列方法
两种方法可以同时使用,看个人喜好
2.提取标签的值
<a title="这是一个标题">这才是标题</a>

response.xpath("//a/text()").get(),可以得到 a 标签的值:这才是标题
3.提取段落所有文字
<div class="test">
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>

response.xpath("//div[@class='test']").get()
这种方式可以得到值为 test 的 div 标签下的所有标签组,即:
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
浏览器展示是没问题的,但是我们需要纯文字用于匹配
为了去除标签,需要加一个 string 的方法,即:
response.xpath("string(//div[@class='test']")).get(),这样可以获取纯文字:
左青龙右白虎老牛在当中龙头在胸口
4.html 类型的字符串清除 html 标签

这是对3的补充,给个栗子
某次返回直接给一个html类型的字符串,记住是字符串,不是从response获取到的
返回json

{"title": 这是标题,
"content":"<div class='test'>
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>"}

这时候response.body是一个json结构体,直接用xpath不行的,所以需要做一个转换

import json
from scrapy import Selector


json_content = json.loads(response.body)["content"]
content = Selector(text=json_content)
content_text = content.xpath("string(.)").get()

因为只有 Selector 才有xpath方法,所以需要把 html 类型的字符串做一次转换才能用 string 方法
发布了76 篇原创文章 · 获赞 46 · 访问量 11万+

猜你喜欢

转载自blog.csdn.net/qingquanyingyue/article/details/91353329