关键词:网络采集数据,网页特定内容提取
在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种:正则表达式和XPath,后者常用于scrapy框架中。
定义:
XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。
1."/" 表示从顶端开始寻找某个标签(多层标签的查找)
以提取title标题为例:
例如:/html ,意思是从顶端开始查找html标签,此时表示<html ,,class=ddaddd>,html标签及其里面的内容
/html/head:提取HTML下的标签下的head标签下的所有内容/html/head/title:可得到对应标题中的内容
2.使用text()提取标签里面的文本内容
/html/head/title/text():可提取得到标题
案例:
3.”=”之前的属于标签属性,如果要提前标签里面的属性信息用”@”提取
4.“//”介绍:寻找所有的标签
herf 属于class类标签下的
//li (寻找所有的li标签)
//li(寻找所有的li标签)/[@(定位到某个属性)]
//li[@class=”,,,,,”]/a/@herf
即可得到某个herf下面的” ”的内容