Python爬虫入门实战3:获取CSDN个人博客信息

☞ ░ 老猿Python博文目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036

一、引言

在《https://blog.csdn.net/LaoYuanPython/article/details/114302167 Python爬虫入门实战2:获取CSDN个人博客文章基础信息》介绍了爬取个人博客文章信息的方法,可以看到相关内容获取是直接通过需要获取信息对应的文字内容、HTML标签或者HTML标签及其父标签进行组合直接定位到对应内容来进行解析,要分析的数据可以通过一次select或find_all即可获得。但还有些区块,无法简单通过一次操作能获得需要的信息,这个时候就需要通过标签之间的关系关联获取。

本文将通过爬取CSDN个人博客信息来阐述这种标签关联关系在博客信息解析中的使用。

二、博客信息的HTML报文

本文将通过一个CSDN的博文地址或博客地址,爬取对应博客的相关信息,包括:原创文章数、周排名、总排名、总阅读量、博客等级、积分、粉丝数、总获赞数、总评论、总收藏数以及按时间的发文情况。

2.1、原创文章数、周排名、总排名、总阅读量、博客等级信息

以老猿自己的博客对应HTML为例&#x

猜你喜欢

转载自blog.csdn.net/LaoYuanPython/article/details/114454198