某C9高校研究生学位申请公示网站信息分析(2)——数据处理及可视化【Excel】

上一篇博客讲解了网站数据的获取:某C9高校研究生学位申请公示网站信息分析(1)——Python数据爬取

一、提出问题

本次春季学位申请中:

  1. 多少人申请了学位
  2. 硕士博士各有多少人
  3. 入学年份及学习年限
  4. 申请人的学习类型分布情况怎么样
  5. 各院系情况
  6. 申请专业/工程领域分布情况
  7. 论文中热门研究方向的情况

二、获取并理解数据

已经获取了数据信息,如下图:
在这里插入图片描述学号解读:
前两个字母代表培养类型
第3位和第4位组成入学年份
第5位到第8位组成院(系)代码
第9位到第11位是序号

所在院系解读:
前3位组成院(系)代码,剩余部分是院(系)名称

获取学号中字母对应的培养类型(学号说明

这里,我将用Excel、Power BI、python三种工具进行数据清洗和可视化展示,在后续的博客中会逐个分析

A、Excel部分[简单粗暴、但是繁琐]

三、数据清洗

先将csv另存为xlsx

1、空值查找:

查找结果:无空值

在这里插入图片描述

2、重复值查找与删除:

查找结果:无重复
在这里插入图片描述

3、数据拆分:

进行学号、姓名、院系的拆分
在这里插入图片描述

4、列名重命名、数据类型转换、删除冗余数据

这里入学年份都为2000年以后,所以自定义类型为2000;院系代码和序号自定义为000
在这里插入图片描述

5、建模前处理:

1、VLOOKUP查找学习类型
2、处理由于编码问题造成的姓名中乱码(实际上是因为出现了偏僻字),由于错误不多,这里只有回原网页查找修改。
3、新建列:研究生层次,函数 =IF(ISNUMBER(FIND(“硕士”,C2)),“硕士”,“博士”)
4、新建列:学习年限,函数 =2020-E2

最终结果如下:

在这里插入图片描述

四、建模及数据可视化

这里直接选用 数据透视表!!

1、研究生层次及培养类型图表

解决问题:
2. 全校及各院系硕士博士申请规模
4. 申请人的学习类型分布情况
在这里插入图片描述
结论:
此次学位申请中,硕士占绝对比例,申请人数为323人,占比为95%,博士仅18人。各院系单独的硕博情况可以根据筛选器查看。各培养类型的学位申请情况如右图,涉及培养类型9种,其中普通硕士生265人,占比78%。

2、各学院各专业申请规模

  1. 申请学位规模总数
  2. 各院系、专业、入学年份的硕士博士规模
  3. 申请人的学习类型分布规模
  4. 各院系情况
  5. 申请专业/工程领域分布情况
    在这里插入图片描述

3、各学历层次及培养类型申请规模

  1. 硕士博士规模
  2. 入学年份及学习年限
  3. 申请人的学习类型分布情况怎么样
  4. 各院系情况
    在这里插入图片描述

4、学习年限分析

在这里插入图片描述
从数据可以看出,此次学位申请中,博士申请人中有1人长达13年博士学习年限,主要年限为4~5年。硕士中绝大多数学习年限为3年,MBA、MPA硕士生普遍有较长的学习年限,对于普通硕士生,有5人学习年限长达5年。

4、Excel数据分析及可视化的不足

频数统计相对麻烦、操作过程繁琐、图表交互感不强、可视化效果有待增强。

下一部分我将使用Power BI进行分析,我们将看到非常丰富的可视化效果

B、Power BI部分[优秀的可视化及交互效果]

下一部分我将使用Power BI进行分析,我们将看到非常丰富的可视化效果

见下一篇博客

发布了50 篇原创文章 · 获赞 14 · 访问量 7938

猜你喜欢

转载自blog.csdn.net/yeyuanxiaoxin/article/details/104889785
C9
今日推荐