Python爬取CSDN博客文章,整合成一个学习Python的PDF

Python爬取CSDN博客文章,整合成一个学习Python的PDF

其实这事情挺简单的,打开CSDN博客首页,他不是有个最新文章么,这个里面都是最新发布的文章。

Python爬取CSDN博客文章,整合成一个学习Python的PDF

打开F12抓取一下数据API,很容易就获取到了他的接口

Python爬取CSDN博客文章,整合成一个学习Python的PDF

提取链接长成这个样子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

扫描二维码关注公众号,回复: 5885474 查看本文章

发现博客最新文章是一个瀑布流页面,不断下拉,只有一个参数shown_offset 在变化,按照我多年的行医经验,这个参数是个时间戳,而且肯定是上一次数据最后一条的时间戳。

基于这个理论,看一下数据,咦,猜对了~~~~~

博客返回的数据看一下,是否对味

Python爬取CSDN博客文章,整合成一个学习Python的PDF

撸代码

这个步骤就非常简单了,就是通过requests去抓取这个链接就好了

Python爬取CSDN博客文章,整合成一个学习Python的PDF

数据获取到了,当然要象征性的保存一下

Python爬取CSDN博客文章,整合成一个学习Python的PDF

猜你喜欢

转载自blog.csdn.net/weixin_44138053/article/details/89296818