某C9高校研究生学位申请公示网站信息分析(3)——数据处理及可视化【Power BI】

前面两篇博客
网站数据的获取:某C9高校研究生学位申请公示网站信息分析(1)——Python数据爬取
Excel数据分析及可视化:某C9高校研究生学位申请公示网站信息分析(2)——数据处理及可视化【Excel】

这里我们继续分析如何用Power BI进行数据处理及可视化
我也将继续用python三种工具进行数据清洗和可视化展示,在后续的博客中会进行分析

A、Excel部分

B、Power BI部分[优秀的可视化及交互效果]

三、数据清洗

先导入文件
在这里插入图片描述
查看导入效果:
在这里插入图片描述

1、提升标题行、空值查找、重复项分析与删除:

从预览效果看:无空值、无重复项
CSV第一行提升为标题行

2、数据拆分:

拆分前先复制列,对复制的列进行拆分。
这里对学号的拆分选择按位置拆分。
对姓名的处理可以选择“提取”或者“拆分列”,这里我选择“提取首字符”
数据的拆分也比Excel便捷了很多,直接插入生成的新列,也不会覆盖后续列

注意:这里拆分后默认执行数据类型更改,应该把该步骤删去,否则这里拆分出来的数字前的0会丢失,而这里不能像Excel中那样便捷地自定义文本格式。

在这里插入图片描述在这里插入图片描述

3、列名重命名、数据类型转换、删除冗余数据、异常值处理

拆分后的列的列名需要重新定义
这里所有的数据类型均设置为“文本”
姓名中由于编码造成的字符异常这里可以考虑使用替代值功能进行替代,这里我们不处理
这里入学年限应该为“20xx年",我们用“格式”中的“前缀”进行处理,这里将数据类型改为“整数”
在这里插入图片描述

四、数据建模

这里学习年限=申请年份-入学年份,这里我们新建列,学习年限数据类型改为“整数”
在这里插入图片描述
由于需要学号代码对应的含义,这里导入相关文件
在这里插入图片描述
这里的建模过程非常简单,不同于Excel的VLOOKUP查找函数
在这里插入图片描述

五、数据可视化

1、学位申请规模分析

竖状桑基图

分析不同学历层次、入学年份、学习类型、院系、专业的学位申请规模
结果:此次学位申请中申请人学历层次主要为硕士,入学年份集中于2017年,同时有少数2016年以前的申请者,以学习类型看,主要为普通硕士,其次是非全硕士和MPA、MBA等工管类,院系分布主要是软院。

在这里插入图片描述
动态筛选效果如图
在这里插入图片描述

条形图

下图更直观地分析了此次学位申请的规模

在这里插入图片描述
在这里插入图片描述

2、学习年限分析

(1)可视化视觉对象

切片器:筛选学习年限
Text Fliter:搜索筛选关键字
折线图:整体表现硕博士学习年限频数分布
堆积柱状图:呈现不同分类水平下学习年限的频数分布
Tassels Parallel Sets Slicer:展现不同分类水平下的构成
散点图:呈现不同分类水平下学习年限的变化情况,散点大小表示频数
树状图:呈现不同分类水平下学习年限的占比
柱状图、散点图、树状图均用到了钻取功能,可以根据不同分类层次进行分析

大屏展示效果
在这里插入图片描述

(2)动态展示效果

在这里插入图片描述

(3)结果分析

1、从折线图可以看出:硕士生学习年限主要为三年,但仍有少数会花费5~6年
2、从柱状图看出,博士主要学习年限为5~6年(一般博士为3年期,由于这次春季的学位申请数据,所以这里可以判定此次学期申请中,博士基本上都已经延期毕业)
3、从桑基图看,此次学位申请者主要来源是软件学院苏州校区的软件工程专业。该院仅有软件工程一个专业,且为专业硕士,无硕士,实行无导师制度,学院规模较大。这里需要注意的是,由于硕士基本是秋季入学,而这里学位申请为秋季,所以实际上这部分学习年限为3年的学生实际上的学习年限不足36个月,根据该校专业硕士修读年限,这部分学生实际上是属于“提前毕业”。
而4年以上的硕士情况如下:
其中普通硕士基本都来于软件学院苏州校区的软件工程专业,该部分学生的延期可能是由于缺乏导师指导所以未能如期达到毕业标准造成。
另外公共管理MPA、MBA等管理类专业,该部分学生也比较特殊。
在这里插入图片描述
博士数据:
在这里插入图片描述

4、观察散点图:
从学习类型与平均学习年限间的关系看,学习类型可能是造成延期毕业关键因素之一
在这里插入图片描述
从院系与平均学习年限的关系看,物理、化学等相关院系的平均学习年限明显较长。
在这里插入图片描述
进一步从申请专业/工程领域进行分析,此次学位申请人中,物理学相关专业的平均学习年限达到了8年之久,
在这里插入图片描述
分别看硕士和博士:
前面已经分析了硕士延期的主要原因
在这里插入图片描述分析博士数据发现,这里延期的博士基本为理科专业,且大部分学习年限都在5年以上,其中凝聚态物理的平均学习年限最长。
在这里插入图片描述
5、树状图
总体规模
在这里插入图片描述
对博士进行下钻
在这里插入图片描述
继续对秋季入学博士进行下钻,发现这批延期博士中,化学系博士最多
在这里插入图片描述

(4)学习年限分析总结

此次学位申请中,主要申请人群为软件学院苏州校区软件工程专业的硕士生,延期的硕士也主要是软工学生和工管专业MPA、MBA。此次申请学位的博士全部都是延期博士,基本是理科专业,其中延期时间最长的来自凝聚态物理,人数最多的是化学系。

发布了50 篇原创文章 · 获赞 14 · 访问量 7937

猜你喜欢

转载自blog.csdn.net/yeyuanxiaoxin/article/details/104904568