Python爬取学习基础案例之re正则

爬取的目标对象:豆瓣图书标签: 历史 (douban.com)

关于豆瓣历史书籍

在这里插入图片描述

爬取该标签下的书籍信息,这里不做保存处理,只打印显示信息。

Python学习交流Q群:906715085####
一、先分析分析
1、链接
首先它是分成许多页的,

第一页的链接:https://book.douban.com/tag/%E5%8E%86%E5%8F%B2

第二页:           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=20&type=T

第三页:           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=40&type=T

第四页:           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=60&type=T

 

可以看到第一页除外,其它的只有start=不同,都是20的倍数,把start=0试一下确实是第一页

可以猜测:tag就是标签标签后面到?之间的就是 '历史' 的某种编码。每一页有20本书籍


2、书籍信息

开发者win+F12,点击元素(有些是元素英文的自己去翻译翻译吧)
在这里插入图片描述

找到对应的位置点击一下箭头位置(ctrl+shift+c)

在这里插入图片描述
在这里插入图片描述

同样的你把鼠标放到哪里,网页对应的位置也会变颜色

可以知道在如图中的 li标签里面就包含一本书的所有信息

在这里插入图片描述

图片链接
在这里插入图片描述

同理得到其它信息

在这里插入图片描述

二、伪装
豆瓣有反爬机制,要伪装。

做一个请求头headers,这里只需要User-Agent即可。

三、实现代码(注意本代码仅用于学习交流,务必遵守相关协议法律,切勿用于商业)

在这里插入图片描述

在这里插入图片描述
最后
今天分享的这个小案例到这里就结束了,喜欢的记得点赞收藏,砸门下一篇见啦…

猜你喜欢

转载自blog.csdn.net/xff123456_/article/details/125227348