《统计学》学习笔记之数据的图表展示

鄙人学习笔记



数据的预处理

数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。

  • 数据审核

数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。

  • 数据筛选

数据筛选是根据需要找出符合特定条件的某类数据。

  • 数据排序

数据排序是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。

品质数据的整理与展示

分类数据的整理与图示

  • 频数

频数是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布

  • 列联表

由两个或两个以上变量交叉分类的频数分布表也称为列联表。二维的列联表(两个变量交叉分类)也称为交叉表。

  • 比例和比率

比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。
比率样本(或总体)中不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1.

  • 条形图

条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。

条形图:

  • 帕累托图

该图是按各类别数据出现的频数多少排序后绘制的条形图。图中左侧的纵轴给出了计数值,即频数.右侧的纵轴给了累积百分比。

帕累托图:

  • 饼图

饼图是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。

饼图:

  • 环形图

环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形。[补]

环形图:

  • 环形图与饼图

环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于对构成的比较研究。

顺序数据的整理与图示

  • 累积频数和累计频率

累积频数是将各有序类别或组的频数逐级累加起来得到的频数。
累积频率或累积百分比是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

数值型数据的整理与展示

  • 数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别.分组后的数据称为分组数据

数据分组的方法有单变量值分组和组距分组两种。
单变量值分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。
在连续变量或变量值较多的情况下,通常采用组距分组。
在组距分组中.一个组的最小值称为下限,一个组的最大值称为上限。

  • 分组和编制频数分布表的具体步骤

①确定组数
一组数据分多少组合适呢?一般与数据自身的特点及数据的多少有关。一般情况下.一组数据所分的组数不应少于5组且不多于15组。
②确定各组的组距(组距是一个组的上限与下限的差)
③根据分组整理成频数分布表

采用组距分组时,需要遵循不重不漏原则。

  • 不重不漏原则

不重是指一项数据只能分在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

  • 上组限不在内原则

为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。

  • 开口组

在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊.为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取"XX以下”及“XX以上”这样的开口组。开口组通常以相邻组的组距作为其组距。

  • 组中值

组中值是每一组中下限值与上限值中间的值。
即:

使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。

  • 直方图

直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。
直方图:

  • 直方图与条形图的区别

直方图与条形图不同。
①条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度在树枝上均有意义。
②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
③条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。

  • 茎叶图

茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况。
茎叶图:

  • 箱线图

箱线图是由数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

箱线图:

注意! 若观察值超过了上四分位数加1.5倍四分位差,或者小于下四分位数减1.5倍四分位差,则在箱线图中会作为离群点被单独标出。[补]

比如:

通过箱线图的形状可以看出数据分布的特征:

  • 线图

如果数值型数据是在不同时间上取得的,即时间序列数据。则可以绘制线图。线图主要用于反映现象随时间变化的特征。
线图:

  • 散点图

散点图是用二维坐标展示两个变量之间关系的一种图形。

散点图:

  • 气泡图

气泡图可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴.第三个变量则用气泡的大小来表示。
气泡图:

  • 雷达图

雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。
雷达图:

发布了116 篇原创文章 · 获赞 22 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/m0_37422217/article/details/104880842