友情提示:BGM和文章更配哦~
????????????????????????????????????????????????????????????????????????
期待了好久的平安夜和圣诞节终于到了!!
大家是怎么度过的呢?
Yura昨天起了个大早
和室友画了半小时美美的妆
甚至因此还上班迟到了一分钟
害
但是比起令人充满期待的晚上
白天的工作都感觉效率更高了呢!
换上红色毛衣!
别上圣诞胸针!
戴上小鹿发箍!
我们就是街上最亮的崽!
不
是最美的小仙女!
……????????????????????……
5个小时过去了
……????????????????????……
拖着一双废腿到家的时候
我们仍然强撑着眼皮
修图发微博发朋友圈!
“文案是什么?”
“还能什么呀?麦瑞克瑞丝玛丝呀!”
“ok!简单粗暴!……不过,怎么拼来着?”
然后我的室友A和室友B
就“麦瑞克瑞丝玛丝”里面
到底有没有t发生了辩论????
A:你自己念念,麦瑞!克瑞丝!玛!丝!哪有t的音?
B:你可以不相信我,但是不可以不相信手机输入法!看!
虽然最后我们都成功地发送了正确的文案
但是刷刷微博
还是发现很多胖友会把这个词拼错~
那么现在
在圣诞节倒计时6小时之际,
我来爬一下微博
看看到底有多少粗心的小马虎~
打开微博网页版,搜索错别词”Chrismas“
不出我所料,
分分钟找到了很多反面教材
(求生欲:对事不对人哦!!!)
右键‘检查“,然后CTRL+F,目标页面还是比较容易找的。
第一页算是可以获取了。
后面已经理论上就是加上“page=?”这个变量
往下拉刷新之后另找关键词搜索验证了此想法
最后实操的时候发现只能爬取50页内容
也就是一次性只能获得实时微博500条……
想想微博是个月活几个亿的爱屁屁
由此我大胆猜测用户发博频率应该挺高的
于是就能采用最简单粗暴的方法????
每半个小时爬一次……
除了“chrismas”这个关键词
我还设置了
“christmas”“merry”和“marry”这几个关键词
爬取尽可能多相关博文
因为有时候一个相对的比例比一个绝对数值更能体现观点~
????
爬虫的过程的当然要永远遵循俩字????
文明!
换言之就是
慢点儿
反正搞了俩小时再加上去重
最终得到去重微博条数6497条
分别是以下字段:
除了去重,主要需要清洗的是微博内容
直接爬取下来的text字段里面有太多链接和符号
以“<”和“>”为关键字符不断重复分裂
最后得到精简版微博内容
最大程度接近前段展示的样子✌️
小声bb:不瞒你们说,这个清洗花了我半小时!
1.改卷时刻
爬了半天,清洗了半天,现在终于到了最后时刻!
让我戴上我的那不存在的眼镜????康康
倒是有多少粗心鬼把单词拼错了!
爬取总微博条数6497条
其中涉及到“chris…”这个考点的微博有3496条
占比超过一半
在这3496条微博中,竟然有470个人拼错了单词!
占比高达470/3496=13.44%!
体育老师:别说你们的英语是我教的!
拼对的86.56%也不要骄傲
没有了手机自动输入法
……嘻嘻嘻
2.分析复盘
那么性别对错误率有什么影响吗?
我们惊讶地发现,性别对正确率……
基本没有影响????
但是细心的我们是否又从这个数据里隐隐看到“二八法则”四个字~
3.“黑榜”公示
秉着“粉丝数量越多,看到的人越多,错误影响传播越大”的非理性逻辑,这里按照粉丝数量从高到低列出TOP10的博主(昵称算了吧算了吧
隔空传话:如果这些大大大V能看见我的这篇小文章,最好节日之后就赶紧麻溜删掉。因为~我发现~你们都是非会员~没没有重新编辑的权限????
4.小彩蛋
大家会发现,我爬虫的时候还爬取了“marry”和“merry”的内容,这不是为了纠错,而是看看有多少浪漫的人,趁此佳节表白~
虽然很土味,但是真的还……蛮浪漫????
平安夜、圣诞节、元旦……
越来越多的人开始重视这些节日
但是其实节日的意义在慢慢淡去
重要的是我们那颗不囿于日常的心
生活需要仪式感✨
希望大家能和心爱的人开心度过每个节
大彩蛋:第一篇文章里面的闺蜜们????
生活不易,必须多才多艺。
数据很多,Yura分析跟你说。
不定期更新数据分析小文章
请大家多多关注多多点赞多多转发:)