Excel下的数据挖掘:学生成绩统计分析实战之总体分析

第1章 考试成绩表总体分析

  • 【 前 言 】 2
    • 第1章 考试成绩表总体分析 4
      • 1.1异常数据排查 4
      • 1.2利用“描述统计”对成绩进行总体分析 5
      • 实例1-2 5

  本章将以初三年级的期中考试成绩为例,应用EXCEL中的数据透视表和数据分析中的描述统计功能,先对本次的成绩进行总体分析。
  参考人数共652人,14个班,其中一名学生部分科目缺考,为了保证学生的私密,对学生的姓名作了修改,其结构如表1.01所示,并命名数据表名称为“总表”。
表1.01 学生成绩总表

1.1异常数据排查

  拿到了成绩数据后,首先是要检查数据的完整性,其次是对一些异常的数据进行排除。数据的完整性就是检查成绩数据是否缺漏,参考人数是否正确。异常的数据比如缺考的学生,得分为0的或成绩为空值的,采用什么方式进行排查呢?可以使用EXCEL中的筛选、排序等工具,对一些异常的数据进行隔离处理。对于不完整的数据信息,如果没有考试过程中的记录,还应该追查具体原因。在整理数据前,要注意做好原始数据的备份,以备对照检查。

1.2利用“描述统计”对成绩进行总体分析

  “描述统计”是EXCEL的【数据分析】中自带的全面数据分析功能,利用此功能,可以非常快速地统计出数据的各项常见指标。

实例1-2

1、操作过程

  单击【数据】菜单,在最右边找到【数据分析】(如果没有,请先加载,步骤是单击【菜单】-【加载】,在弹出的窗口中选择“加载项”-“分析工具库”,单击【确定】),单击进入【数据分析】面板,选择“描述统计”,进入【描述统计】窗口,如图1.1.01所示,在“输入区域”中选择数据范围,这里是总分加上所有学科的数据区域,在输出区域中选择要输出的位置,勾选要统计的各个选项,单击【确定】,即得到本次考试的总体情况表,整理后如表1.1.01所示。增加了差异系数、难度和区分度三个指标,下面逐一解释各指标的意义和作用。
图1.2.01 描述统计面板
表1.2.01 成绩总体情况分析表

2、统计指标
(1)平均分

  在统计学上称为平均数,在成绩统计中,一般指简单算术平均数,是一个最基本的特征量数,指的是简单地把一批数据总和除以数据总次数所得的商数[1]。
   在EXCEL中,常用AVERAGE,AVERAGEIF,AVERAGEIFS三个函数来统计平均分。
  在本例中,总分平均分是504.7745,标准误差是5.2194,说明总分平均分在±5.2194之间的范围内取值是有效的。

(2)中位数与众数

  中位数指一组数中按大小排序,位于中间的数[2],在EXCEL中,求中位数的是MEDIAN函数;众数是指总体中出现次数最多的标志值[3],在EXCEL中,函数MODE用于求众数。
   表里的中位数是531,说明中间哪个学生的分数是531分;众数是611,说明在611分这范围的人数最多。

(3)标准差

  标准差是反映一个数据集的离散程度,指的是一组数据的离差平方和除以数据个数所得商的算术平均根[4]。在EXCEL中,可以通过函数STDEV(样本标准差)或STDEVP(总体标准差)求得,一般计算样本标准差即可。在这里可以简单理解为标准差小的全级学生的成绩跟平均值的距离比较小,反之则比较大。

(4)峰度、偏度

  峰度和偏度是反映数据分布的参考值,峰度指数据分布平峰或尖峰的程度,也叫峰态[5],正态分布其参考值是3,低于3为平峰,在这里可以理解为各分数段的人数较分散,大于3则为尖峰,在这里可理解为某一分数段的人数较集中,偏度是反映不对称分布的偏态方向和程度的统计分析指标,也叫偏斜度,结合平均数、标准差,从另一角度描述了现象总体数据分布的特点[6],当偏度值大于0,表示正偏,这里可理解为低于平均分的人较多,偏度小于0,则为负偏,这里可理解为高于平均分的人较多。
在EXCEL中,峰度可以用函数KURT计算,偏度则可以用函数SKEW计算。
在这里插入图片描述

(5)区域

  区域是最大值和最小值的差,表示分值范围。

(6)最大值和最小值

   最大值是指一组数据中最大的数,在这里就是最高分,可用MAX函数计算。最小值是指一组数据中最小的数,就是最低分,在EXCEL用函数MIN可以求出。

(7)观察数

  观察数实质就是参加考试的学生人数,对于缺考的学生不作统计,从表中可以看到语文的考试人数是652人,而数学的考试人数是651人,说明数学科有一个学生缺考。

(8)差异系数

  差异系数是标准差和平均分的比值,是一种反映相对离散程度的系数,适合于不同性质数据的研究与比较[7]。本例中可看到数学的差异系数最大,可以理解为是拉开成绩距离最大的学科,而语文的差异系数最小,说明语文的成绩相对较接近,也可以说数学的离散程度比语文的高。

(9)难度

  难度是反映被试完成题目或项目任务时所遇到的困难程度[8],可用计算得分率作为难度的指标。难度P的计算公式为:
  P=1-X/F
  其中X是该科平均分,F满分表示该科的总分。
  从表中可看到数学的难度最大,而化学的难度最小。

(10)区分度

  区分度是题目区别初试水平的能力的量度[9],一般以字母D表示。计算方法为:
  D=(X高-X低)/F
  X高和X低分别表示高分组的平均分和低分组的平均分,其比例一般是各占总人数的27%,F是表示该题目的满分值。
  一般来说,区分度低于0.2,必须修改或淘汰,而高于0.4,则处于优良级别,从表中可看到数学的区分度最好,语文和化学的区分度则属于合格区间。从总体看,本次考试的区分度还是比较理想的,没有出现极端的现象。
在这里插入图片描述

(11)置信度(95%)

是表示此统计的可信度为95%,也就是说存在有5%的误差。比如总分置信度(95%)的值是10.2488,说明其值的误差范围是在±10.2488之间。

发布了7 篇原创文章 · 获赞 4 · 访问量 1053

猜你喜欢

转载自blog.csdn.net/ydr888/article/details/105034052