Python爬取周杰伦的200首歌+BI可视化分析

最近一直在听周杰伦的歌(可能是小编长大了,也有可能是春天快到了....),于是想拿Python分析一下周杰伦歌曲的各项数据。

可是熟悉的人应该知道,Python爬取简单,但是分析起来是很困难的,SQL语句、Pandas和Matplotlib齐上阵,一般人也不会,学起来也需要花不少时间。

于是我想到了一种新的方式,Python爬取+BI数据可视化分析,前者速度快,后者步骤简单直接拖拽,两者配合,简直天下无敌!

一、分析哪些数据?

周杰伦啊!我的青春!分析的维度可以有很多。

我想看看他的每首歌都适合什么季节听,歌词里出现最多的词又是什么,作词人和作曲人又分别是谁多一点,哪些歌适合失恋听,哪些歌适合热恋听....太多了!

二、爬取的过程

首先我们先进入到我们需要抓取的内容的地址:网易云音乐的首页,我们的目的是抓取周杰伦的所有歌曲,歌词,以及评论,那我们在搜索处输入周杰伦。

file

得到这张图,我们发现这里面只有最多50首歌(很多人分析网易云的歌曲就只选取TOP50),我们想要的是全部,所以这个URL不符合要求,我们继续寻找其他的URL地址。

我在这里花了不少时间,最后找到了一个间接的方法,首先抓取周杰伦的全部专辑信息,然后通过专辑信息再去寻找全部歌曲。

file

我们再看header里面有什么,这里面的string我们不用管了,因为它已经在我们的url里面了,我们只需要看request headers 这个就是我们给服务器发送的东西。

file

代码部分:

file

具体结果如下:

file

利用同样的方法,我们也可以分析出歌曲信息、热评信息,具体代码都在文末,最终的数据量在30W左右~

file

file

三、用BI进行数据可视化分析

近几年冒出来的BI之秀,都在强调敏捷、自助式,一改传统BI工具SAP BO、IBM家的cognos独占市场的局面,这是好事,也证明商业智能这个领域在不断受到重视。

file

BI产品如何选型?

价格:在经费允许的范围内,做到最高的性价比。

产品的成熟度:成熟度高,实用性强是大多数企业的需求所在,一般来说成熟度和产品存在时间和客户数量成正比,因为已经经过了市场的检验。

产品的快速部署:对于快速上线很重要。

开发功能:是否够友好,是否够敏捷,业务人员能否直接使用。

针对以上几点,再加上自己的调研,发现Tableau和FineBI是BI界的两款顶尖工具。

Tableau可视化探索分析很赞,还带有语音版,但是因为是国外产品,多为代理商,服务得不到保证,且操作方式不适合小白使用;同时,企业用多并发价格贵。

FineBI是国产品牌,也是国内为数不多能占据世界领先地位的数据工具,自带ETL,可视化很酷炫,主打业务人员自助式分析,企业版价格也是很良心,个人用免费。

file

file

四、周杰伦歌曲的数据可视化

FineBI不仅有精美的可视化分析,它的操作过程也十分地简单。

file

file

有人会说Excel也不错,我建议你醒醒。Excel做数据可视化根本行不通,数据量太大会卡死,VBA也需要编程,图表的种类还特别特别少.....

1、有哪些悲伤的歌

file

当年周杰伦靠着双节棍火遍天下,但细细分析就会发现,其实他的歌都是主打悲伤情歌,这里分析出了他情绪较为低落的几首歌,建议失恋的人不要听(滑稽脸)。

file

2、有哪些欢快的歌

file

当然了,有情绪低落的,就有让人开心的。比如稻香,就是个很欢快的曲子,还记得家是惟一的城堡,随着稻香河流继续奔跑....小编堪称铁粉。

3、热度排名

file

因为都是比较老的歌了,热度也不会有上升,但是依然是经典!《说好不哭》是周杰伦的新歌,当晚上线直接导致QQ音乐崩溃,可见其影响力。

file

4、季节排名

看看周董都会在哪些季节发布,不用分析也知道是在秋天,情歌可能在秋天才更有意境吧(我瞎猜的)。

file

5、作词人占比

一提到周杰伦歌曲的作词,大家第一个想到的肯定是方老师,但是拿FineBI分析之后发现,周杰伦自己也是一个作词天才。

file

五、总结

BI产品的使用关键还是业务和管理。涉及到深度数据分析、资源调配的需要较高的业务思考能力,这也就是为什么FineBI主打自助式分析,让业务人员自己去发现数据的价值。

以上就是FineBI的一次数据分析实战,也是为了帮助大家更加了解这款产品,但上面只是其冰山一角,欢迎各位亲自体验一下这款企业级的数据分析工具。

发布了38 篇原创文章 · 获赞 1 · 访问量 2189

猜你喜欢

转载自blog.csdn.net/wulishinian/article/details/104855123