初探爬虫:xpath提取信息,爬取页面小案例
一、准备阶段
相关技术与库
- requests
- lxml
- 正则表达式
- Google chrome
- xpath插件
1、实验中的小问题:xpath语法有瑕疵,提取信息时定位不明确,还需要多多应用。
2、在提取到标签信息后,将文本按照想要的格式输出时达不到预期效果,无法爬取对应的图片url
二、实验阶段
首先引入本次实验所需要的包
将写好的download函数引入,其作用是模拟浏览器访问(这里我们添加了try使download函数看起来更加完美)并拿到对应的html
然后开始最重要的一步:对页面进行解析,重点利用xpath插件对页面进行解析
很显然我们成功了!但是我们对提取出来的格式并不满意,这里我们利用简单的循环嵌套来整理一下拿到的信息:
整理后:
让我们来和要爬取的页面对比一下:
ok!解决~
三、实验心得
最重要的就是解析页面时候不能着急,要耐心的通过xpath插件测试提取的信息,遇到问题静下心来通过百度、询问老师或者是检查代码语法来对程序进行调试。