初探爬虫：xpath提取信息，爬取页面小案例 - 代码天地

初探爬虫：xpath提取信息，爬取页面小案例

其他 2020-02-16 10:38:46 阅读次数: 0

初探爬虫：xpath提取信息，爬取页面小案例

一、准备阶段
相关技术与库

requests
lxml
正则表达式
Google chrome
xpath插件
1、实验中的小问题：xpath语法有瑕疵，提取信息时定位不明确，还需要多多应用。
2、在提取到标签信息后，将文本按照想要的格式输出时达不到预期效果，无法爬取对应的图片url

二、实验阶段
首先引入本次实验所需要的包
在这里插入图片描述

将写好的download函数引入，其作用是模拟浏览器访问（这里我们添加了try使download函数看起来更加完美）并拿到对应的html

在这里插入图片描述

然后开始最重要的一步：对页面进行解析，重点利用xpath插件对页面进行解析

在这里插入图片描述

很显然我们成功了！但是我们对提取出来的格式并不满意，这里我们利用简单的循环嵌套来整理一下拿到的信息：

在这里插入图片描述
整理后：

让我们来和要爬取的页面对比一下：

ok！解决~

三、实验心得
最重要的就是解析页面时候不能着急，要耐心的通过xpath插件测试提取的信息，遇到问题静下心来通过百度、询问老师或者是检查代码语法来对程序进行调试。

高羊羊羊羊羊杨

发布了25 篇原创文章 · 获赞 5 · 访问量 1508

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43656359/article/details/102593559

初探爬虫：xpath提取信息，爬取页面小案例

Python 爬虫小练习：基于 XPath 的表格信息爬取

爬虫XPath表达式提取信息实用插件：XPath helper下载安装使用

爬虫小案例爬取笑话 xpath

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

使用爬虫xpath提取数据-爬取美女图片

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)

网络爬虫 - 5 Xpath的使用方法与爬取案例

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

Python爬虫-爬取豆瓣信息(selenium+xpath)

爬虫小案例——爬取网站小说

爬虫小案例爬取（妹子图片）

爬虫笔记3-提取信息

爬取腾讯信息的小爬虫demo

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

xpath爬虫实例，爬取图片网站百度盘地址和提取码

案例8 爬虫爬取求职信息

Python爬虫案例Demo——Boss直聘信息的爬取

scrapy爬虫进阶案例--爬取前程无忧招聘信息

爬虫实现二级链接页面信息爬取

爬虫，爬取豆瓣书城首页的书籍信息，requests下载页面，三种解析方式（正则，bs4，xpath）

Python爬虫-爬取扇贝单词(Xpath)

爬虫学习：xpath爬取评书网

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

Python爬虫伪装浏览器，初步提取信息！

爬虫-提取信息-正则表达式

xpath案例-全国城市名爬取

爬虫 selenium+Xpath 爬取动态js页面元素内容

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)