XPath部分总结

关键词:网络采集数据,网页特定内容提取
在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种:正则表达式XPath,后者常用于scrapy框架中。
定义:
XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。

1."/" 表示从顶端开始寻找某个标签(多层标签的查找)

以提取title标题为例:

例如:/html ,意思是从顶端开始查找html标签,此时表示<html ,,class=ddaddd>,html标签及其里面的内容

/html/head:提取HTML下的标签下的head标签下的所有内容/html/head/title:可得到对应标题中的内容

2.使用text()提取标签里面的文本内容

/html/head/title/text():可提取得到标题

案例:

3.”=”之前的属于标签属性,如果要提前标签里面的属性信息用”@”提取
4.“//”介绍:寻找所有的标签
herf 属于class类标签下的
//li (寻找所有的li标签)
//li(寻找所有的li标签)/[@(定位到某个属性)]
//li[@class=”,,,,,”]/a/@herf
即可得到某个herf下面的” ”的内容

猜你喜欢

转载自blog.csdn.net/Analyst128/article/details/82109280
今日推荐