Python爬虫入门教程 17-100 博客抓取数据

其他 2019-01-03 09:58:40 阅读次数: 0

写在前面

写了一段时间的博客了，忽然间忘记了，其实博客频道的博客也是可以抓取的，所以我干了.....

其实这事情挺简单的，打开CSDN博客首页，他不是有个最新文章么，这个里面都是最新发布的文章。

在这里插入图片描述

打开F12抓取一下数据API，很容易就获取到了他的接口

在这里插入图片描述

提取链接长成这个样子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

发现博客最新文章是一个瀑布流页面，不断下拉，只有一个参数shown_offset 在变化，按照我多年的行医经验，这个参数是个时间戳，而且肯定是上一次数据最后一条的时间戳。

基于这个理论，看一下数据，咦，猜对了~~~~~

博客返回的数据看一下，是否对味

在这里插入图片描述

撸代码

这个步骤就非常简单了，就是通过requests去抓取这个链接就好了

import requests
import pymongo
import time

START_URL = "https://www.csdn.net/api/articles?type=more&category=newarticles&shown_offset={}"
HEADERS = {
    "Accept":"application/json",
    "Host":"www.csdn.net",
    "Referer":"https://www.csdn.net/nav/newarticles",
    "User-Agent":"你自己的浏览器配置",
    "X-Requested-With":"XMLHttpRequest"
}
def get_url(url):
    try:
        res = requests.get(url,
                           headers=HEADERS,
                           timeout=3)

        articles = res.json()
        if articles["status"]:
            need_data = articles["articles"]
            if need_data:
                collection.insert_many(need_data)  # 数据插入
                print("成功插入{}条数据".format(len(need_data)))
            last_shown_offset = articles["shown_offset"]  # 获取最后一条数据的时间戳
            if last_shown_offset:
                time.sleep(1)
                get_url(START_URL.format(last_shown_offset))
    except Exception as e:
        print(e)
        print("系统暂停60s，当前出问题的是{}".format(url))

        time.sleep(60) # 出问题之后，停止60s，继续抓取
        get_url(url)

数据获取到了，当然要象征性的保存一下，mongo数据库的操作在上一篇文章，你可以去翻翻。

在这里插入图片描述

猜你喜欢

转载自www.cnblogs.com/happymeng/p/10212455.html

Python爬虫入门教程 17-100 博客抓取数据

Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

Python爬虫入门教程 21-100 网易云课堂课程数据抓取

Python爬虫入门教程 24-100 微医挂号网医生数据抓取

Python爬虫入门教程 22-100 CSDN学院课程数据抓取

Python爬虫入门教程 28-100 虎嗅网文章数据抓取 pyspider

Python爬虫入门教程 29-100 手机APP数据抓取 pyspider

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

Python爬虫入门教程 30-100 高考派大学数据抓取 scrapy

Python爬虫入门教程 16-100 500px摄影师社区抓取摄影师数据

Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy

Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy

Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取

Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

Python爬虫入门教程 20-100 慕课网免费课程抓取

Python爬虫入门教程 54-100 博客园等博客网站自动评论器

Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

Python爬虫入门教程第十七讲： CSD*博客抓取数据

Python爬虫入门教程 3-100 美空网数据爬取

Python爬虫入门教程 15-100 石家庄政民互动数据爬取

Python爬虫入门教程：CSDN学院课程数据抓取

100个numpy问题17-100

Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分

Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

Python爬虫入门教程：微医挂号网医生数据抓取

Python爬虫入门教程：手机APP数据抓取 pyspider

Python爬虫入门教程第二十讲：微医挂号网医生数据抓取

Python爬虫入门教程第十九讲：链家租房数据抓取

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)