获取了慕课网的所有IT培训课程数据,通过pandas和matplotlib从不同领域、课程难易度、数量进行数据分析,发现现在网络教育很火,难怪连百度的吴恩达都退下来开始自己的教育事业了。
一、数据获取
数据获取主要是用python的简单爬虫,慕课网的数据获取非常容易,这里不再赘述。
二、数据预处理
读取数据,并且将其变为DataFrame数据格式,便于后面处理。
这样,我们就能开心地分析数据了。
这里需要导入的所有包:
import pandas as pd
import matplotlib.pyplot as plt
import re
import jieba
import jieba.analyse
三、各种编程语言课程情况
不同编程语言课程次数
取前20名,做出的各个课程次数条形图:
看起来,前几名是android,php,java等流行语言。
不同语言课程视频播放次数
做出的条形图是这样:
这样看来,C语言教学视频播放量最多,java次之,由此可见,目前为止,C、Java、Android是很流行的。
四、不同等级课程情况
主要从课程数与不同课程播放次数数,进行统计分析。
为了解决画图对汉字的支持,我们需要从本地的windows字体文件中导入中文字体:
分析不同课程数量
画出的条形图是这样的:
可以看出,中级课程数几乎是初级的两倍,高级居中,我们可以猜测,大部分人处于该语言的中级编程水平。这只是课程数,那么,课程人数是不是还满足这个关系呢?
不同难度等级报名观看次数
画出的条形图是这样的:
哈哈,这样看来,初级难度课程数最多,中级几乎相等,具体数据是这样的:
高级 9106391
中级 12077063
初级 12154138
五、不同课程的描述情况
关键字是这些:
课程 教程 实现 学习 开发 讲解 Java Android 视频教程
使用 入门 框架 PHP 掌握 应用 介绍 效果 了解 动画 如何
提取了前20个关键字
六、可以看出
现在互联网在线教育夏天已经到来,尤其是新手、中级级别的程序员们很多,一个慕课就有那么多的播放流量,更不用说腾讯、网易这样的流量大户的视频教育播放量了。那么,在线视频真的有人学到东西了吗。互联网教学,这是便利,还是什么,效果怎么样?
现在的学校教的东西很多都过时了吗,能迎合工作的需要吗?很多人选择了自学、网上免费、付费视频等等,我也经常这样。自学很方便,自学难吗,效果怎么样,有没有人反思过这个问题,那么该怎么办?这是个值得思考的问题。