Python爬取学习基础案例之re正则 - 代码天地

Python爬取学习基础案例之re正则

物联网 2022-06-16 07:15:59 阅读次数: 0

爬取的目标对象：豆瓣图书标签: 历史 (douban.com)

关于豆瓣历史书籍

在这里插入图片描述

爬取该标签下的书籍信息，这里不做保存处理，只打印显示信息。

Python学习交流Q群：906715085####
一、先分析分析
1、链接
首先它是分成许多页的，

第一页的链接：https://book.douban.com/tag/%E5%8E%86%E5%8F%B2

第二页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=20&type=T

第三页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=40&type=T

第四页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=60&type=T

 

可以看到第一页除外，其它的只有start=不同，都是20的倍数，把start=0试一下确实是第一页

可以猜测：tag就是标签标签后面到？之间的就是 '历史' 的某种编码。每一页有20本书籍

2、书籍信息

开发者win+F12，点击元素（有些是元素英文的自己去翻译翻译吧）
在这里插入图片描述

找到对应的位置点击一下箭头位置（ctrl+shift+c）

在这里插入图片描述

同样的你把鼠标放到哪里，网页对应的位置也会变颜色

可以知道在如图中的 li标签里面就包含一本书的所有信息

在这里插入图片描述

图片链接
在这里插入图片描述

同理得到其它信息

在这里插入图片描述

二、伪装
豆瓣有反爬机制，要伪装。

做一个请求头headers，这里只需要User-Agent即可。

三、实现代码(注意本代码仅用于学习交流，务必遵守相关协议法律，切勿用于商业)

在这里插入图片描述

在这里插入图片描述
最后
今天分享的这个小案例到这里就结束了，喜欢的记得点赞收藏，砸门下一篇见啦…

猜你喜欢

转载自blog.csdn.net/xff123456_/article/details/125227348

Python爬取学习基础案例之re正则

Python网络爬虫（四）re正则表达式之爬取CSDN博客

Python利用xpath和正则re爬取新浪新闻

小杰的学习过程之requests+re(正则)之猫眼top100排名信息爬取

requests+re(正则)之猫眼top100排名信息爬取

python正则图片爬取

python基础之：re(正则表达式)模块

python基础之正则表达式，re模块

【Python爬虫案例学习】Python爬取天涯论坛评论

Python爬虫基础入门实战案例（爬取网站小说）

Python 学习之股票信息爬取

python学习之爬取网页技术

re 正则表达式爬取网站标题

（python）正则之re模块

python之正则模块Re

python之正则re模块

Python 之scrapy框架58同城招聘爬取案例

Python之requests爬取网页数据案例。

python爬虫之爬取案例网页ajax请求的数据

Python 之【re模块的正则表达式学习】

[ Python ] 爬虫类库学习之 re 正则解析

python学习之 re库正则表达式

python正则模块re使用案例

python之爬虫的入门05------实战：爬取贝壳网（用re匹配需要的数据）

Python爬虫之csv+PIL+BytesIO+re爬取猫眼电影排行（九）

python 3.x 爬虫基础---正则表达式（案例：爬取猫眼信息，写入txt,csv,下载图片）

Python爬虫（入门+进阶）学习笔记 1-7 数据入库之MongoDB（案例二：爬取拉勾）

python爬虫之爬取案例网页ajax请求的数据3之实现跨页爬取

python使用正则爬取图片

python爬虫--xpath结合re同时爬取文字与图片

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)