初探爬虫:xpath提取信息,爬取页面小案例

初探爬虫:xpath提取信息,爬取页面小案例

一、准备阶段
相关技术与库

  • requests
  • lxml
  • 正则表达式
  • Google chrome
  • xpath插件
    1、实验中的小问题:xpath语法有瑕疵,提取信息时定位不明确,还需要多多应用。
    2、在提取到标签信息后,将文本按照想要的格式输出时达不到预期效果,无法爬取对应的图片url

二、实验阶段
首先引入本次实验所需要的包
在这里插入图片描述

将写好的download函数引入,其作用是模拟浏览器访问(这里我们添加了try使download函数看起来更加完美)并拿到对应的html

在这里插入图片描述

然后开始最重要的一步:对页面进行解析,重点利用xpath插件对页面进行解析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
很显然我们成功了!但是我们对提取出来的格式并不满意,这里我们利用简单的循环嵌套来整理一下拿到的信息:

在这里插入图片描述
整理后:
在这里插入图片描述
让我们来和要爬取的页面对比一下:
在这里插入图片描述
ok!解决~

三、实验心得
最重要的就是解析页面时候不能着急,要耐心的通过xpath插件测试提取的信息,遇到问题静下心来通过百度、询问老师或者是检查代码语法来对程序进行调试。

发布了25 篇原创文章 · 获赞 5 · 访问量 1508

猜你喜欢

转载自blog.csdn.net/weixin_43656359/article/details/102593559