Python网络数据采集（1）：博客访问量统计 - 代码天地

Python网络数据采集（1）：博客访问量统计

其他 2019-09-15 16:31:14 阅读次数: 0

前言

Python中能够爬虫的包还有很多，但requests号称是“让HTTP服务人类”...口气不小，但的确也很好用。

本文是博客里爬虫的第一篇，实现一个很简单的功能：获取自己博客主页里的访问量。

当然了，爬虫一般肯定逃不掉要用正则表达式（regular expression），因此Python的re包也是十分常用的。

分析

博客园好像目前没有一个页面能访问完某用户所有随笔的功能，每一页只能显示最近十篇...因此需要使用一个循环，每次打开一个page，直到打开之后为空。

当输入https://www.cnblogs.com/maoerbao/default.html?page=1时：

而再随便输一个数，比如输入page=4时，页面为空：

那么我们就提取每一页的“阅读 ( )”里的内容即可。当提取不到信息时，结束循环。

然后发现每一篇的阅读量表现为“阅读 (”+数字，注意这里的括号之前有空格，括号是英文，正则表达式需要转义，数字的位数不确定。

正则表达式中，数字用'\d'描述即可，

出现0-n次用'*'，出现0-n次用'+'，出现0-1次用'?'，

在这里，“阅读”后面必定有数字，因此用'*'或'+'皆可以。

代码

import requests 
import re
import datetime

N=[]
i=1
while True:
   url = 'https://www.cnblogs.com/maoerbao/default.html?page='+str(i)  
   f = requests.get(url).text          
   a = re.findall('阅读 \(\d+',f)
   if len(a)==0:
        break
   for j in a:
        N.append(int(j[4:]))
   i+=1

print('我的博客总量：{}\n'.format(len(N)))
print('总阅读量:{}'.format(sum(N)))
print('最大单篇阅读量:{}'.format(max(N)))
t = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
print('\n统计时间：'+t)

运行结果

猜你喜欢

转载自www.cnblogs.com/maoerbao/p/11523201.html

Python网络数据采集（1）：博客访问量统计

Python爬虫1：博客访问量

Python统计博客园访问量

python 爬取博客访问量并且统计数据成图

博客园统计访问量

博客添加免费访问量统计

访问量统计

Python爬虫刷博客访问量

增加博客访问量（Python）

如何统计博客园的个人博客访问量

使用python统计csdn博客一段时间内的访问量

为博客园添加统计访问量的工具

统计csdn博客的访问量+评论数

两行代码搞定博客访问量统计

使用statcounter统计Hexo博客访问量

使用busuanzi统计hexo博客访问量

nginx访问量统计

访问量统计代码

网站访问量的统计

python爬虫设计刷博客访问量（刷访问量，赞，爬取图片）

设置博客访问量

PYTHON批量统计多个IIS应用站点的访问量

python 爬虫爬去自己博客的访问量

使用python爬取csdn博客访问量

python requests、xpath爬虫增加博客访问量

Python3刷csdn博客访问量

python使用urllib刷博客访问量技术实现

统计最近七天的数据访问量 mysql

CSDN和博客园访问量的数据对比

如何统计博客园的个人博客访问量【转】

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)