Merry不是Chrismas

友情提示:BGM和文章更配哦~

????????????????????????????????????????????????????????????????????????

期待了好久的平安夜和圣诞节终于到了!!

大家是怎么度过的呢?

Yura昨天起了个大早

和室友画了半小时美美的妆

甚至因此还上班迟到了一分钟

但是比起令人充满期待的晚上

白天的工作都感觉效率更高了呢!

换上红色毛衣

别上圣诞胸针

戴上小鹿发箍

我们就是街上最亮的崽!

是最美的小仙女!

……????????????????????……

5个小时过去了

……????????????????????……

拖着一双废腿到家的时候

我们仍然强撑着眼皮

修图发微博发朋友圈!

“文案是什么?”

“还能什么呀?麦瑞克瑞丝玛丝呀!”

“ok!简单粗暴!……不过,怎么拼来着?”

然后我的室友A和室友B

就“麦瑞克瑞丝玛丝”里面

到底有没有t发生了辩论????

A:你自己念念,麦瑞!克瑞丝!玛!丝!哪有t的音?

B:你可以不相信我,但是不可以不相信手机输入法!看!

虽然最后我们都成功地发送了正确的文案

但是刷刷微博

还是发现很多胖友会把这个词拼错~

那么现在

在圣诞节倒计时6小时之际,

我来爬一下微博

看看到底有多少粗心的小马虎~

打开微博网页版,搜索错别词”Chrismas“

不出我所料,

分分钟找到了很多反面教材

(求生欲:对事不对人哦!!!)

右键‘检查“,然后CTRL+F,目标页面还是比较容易找的。

第一页算是可以获取了。

后面已经理论上就是加上“page=?”这个变量

往下拉刷新之后另找关键词搜索验证了此想法

最后实操的时候发现只能爬取50页内容

也就是一次性只能获得实时微博500条……

想想微博是个月活几个亿的爱屁屁

由此我大胆猜测用户发博频率应该挺高的

于是就能采用最简单粗暴的方法????

每半个小时爬一次……

除了“chrismas”这个关键词

我还设置了

christmas”“merry”和“marry”这几个关键词

爬取尽可能多相关博文

因为有时候一个相对的比例比一个绝对数值更能体现观点~

????

爬虫的过程的当然要永远遵循俩字????

文明!

换言之就

慢点儿

反正搞了俩小时再加上去重

最终得到去重微博条数6497

分别是以下字段:

除了去重,主要需要清洗的是微博内容

直接爬取下来的text字段里面有太多链接和符号

以“<”和“>”为关键字符不断重复分裂

最后得到精简版微博内容

最大程度接近前段展示的样子✌️

小声bb:不瞒你们说,这个清洗花了我半小时!

1.改卷时刻

爬了半天,清洗了半天,现在终于到了最后时刻!

让我戴上我的那不存在的眼镜????康康

倒是有多少粗心鬼把单词拼错了!

爬取总微博条数6497

其中涉及到“chris…”这个考点的微博有3496条

占比超过一半

在这3496条微博中,竟然有470个人拼错了单词!

占比高达470/3496=13.44%

体育老师:别说你们的英语是我教的!

拼对的86.56%也不要骄傲

没有了手机自动输入法

……嘻嘻嘻

2.分析复盘 

那么性别对错误率有什么影响吗?

我们惊讶地发现,性别对正确率……

基本没有影响????

但是细心的我们是否又从这个数据里隐隐看到“二八法则”四个字~

3.“黑榜”公示

秉着“粉丝数量越多,看到的人越多,错误影响传播越大”的非理性逻辑,这里按照粉丝数量从高到低列出TOP10的博主(昵称算了吧算了吧

隔空传话:如果这些大大大V能看见我的这篇小文章,最好节日之后就赶紧麻溜删掉。因为~我发现~你们都是非会员~没没有重新编辑的权限????

4.小彩蛋

大家会发现,我爬虫的时候还爬取了“marry”和“merry”的内容,这不是为了纠错,而是看看有多少浪漫的人,趁此佳节表白~

虽然很土味,但是真的还……蛮浪漫????

平安夜、圣诞节、元旦……

越来越多的人开始重视这些节日

但是其实节日的意义在慢慢淡去

重要的是我们那颗不囿于日常的心

生活需要仪式感✨

希望大家能和心爱的人开心度过每个节

大彩蛋:第一篇文章里面的闺蜜们????

生活不易,必须多才多艺。

数据很多,Yura分析跟你说

不定期更新数据分析小文章

请大家多多关注多多点赞多多转发:)

发布了17 篇原创文章 · 获赞 2 · 访问量 357

猜你喜欢

转载自blog.csdn.net/weixin_37097614/article/details/103708044