知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

---恢复内容开始---

导读:在文章开始前,先来一张图给大家热热身。这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被作者过滤)。排名不分先后哈!快来看看有没有你们熟悉的面孔。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

第一步

人工选择的初始群体很关键,但是并不难。

可以从关注某些问题的相关用户中抓取目标人群,如问题:女生腿长是什么感觉?或者抓取这些问题下活跃男性用户关注或点赞的女性。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

男性粉丝的集合是:{1,2,3,4,5}

而关注关系指的是:有几条线就有几个关注关系,这里有9个关注关系。

这一步共抓取了219165条关注关系。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

第四步

有了这2000多个“宅男”就好办了,接下来的步骤和上面类似。抓取这些“宅男”关注的女性用户,同样按关注关系排序,得到前2000名最受欢迎的美眉:

其中女性关注关系有:344849条。

女性用户集合中有:66869人。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

亮点找到了吗?一眼望过去就看见了“Python、Android、程序员、ios”等内容,看来程序员为宅男队伍的壮大贡献了不少力量啊。

于此,我又探究了一下“宅男”们的岗位:

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

程序员不愧是“宅男”的主力军,这好像并不太奇怪?奇怪的是,为什么有那么多Android开发的童鞋,你们有什么特殊癖好吗?

我又顺便分析了下“宅男”们的地理位置,也许是因为北京和上海的用户较多,所以北京和上海的宅男人数也尤为突出。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

最令人关注的是为什么那么多美眉关注Photoshop,莫非妹子们和PS之间有什么不可说的联系吗?嘻嘻。

妹子们的位置和宅男们的一样,身处北京和上海的居多,我认为这可能是用户基数大的原因。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

除了以上信息,我还抓取了妹子们的自我描述,并对关键词进行了提取。而后发现,这些美眉多数都在运营公众号、微博,同时很多妹子还留下了个人微信。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

妹子们留下的工作信息比较少,收集到的数据不算很多。不过创始人是什么,妹子们都创业了?嗯嗯,产品经理就不意外啦,很多产品经理都玩知乎的。

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

除了上述信息外,我还抓取了这2000个美眉们回答得最多的问题,下面是排行前25的问题:

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

知乎上男多女少,毋庸置疑!我用Python挖掘了200位知乎小姐姐!

 

所以,在大数据时代,我们几乎是没有隐私可言的。当然,这也有利有弊,用一定的算法,我们也可以发现一些异常行为,比如知乎上的不少骗子、酒托、饭托等,都可以通过数据聚类,从而发现社会上一些不和谐的事情。

本文涉及的代码和数据就不提供给大家啦。一是为了避免大家的抓取对网站服务器造成过多压力,二是数据具有一定的隐私性。感兴趣的童鞋可以自己通过技术实现,文中也有说到实现思路。

进群:125240963    即可获取数十套PDF哦!

猜你喜欢

转载自www.cnblogs.com/PY1780/p/9289256.html