一、用图表展示定性数据

定性数据包括分类数据和顺序数据，通常可以用频数分布图和图形来描述。

（一）生成频数分布表

定性数据生成频数分布表的步骤：
1、列出个类别
2、计算各类别的频数
3、生成频数分布表
注：频数是指频数分布表中落在某一特定类别的数据个数。

频数分布表的作用：通过频数分布可以观察不同类别数据的分布情况。

用excel生成频数分布表有几种途径，一种最简单的方法就是使用“数据透视表”进行计数和汇总。

（二）定性数据的图形表示

定性数据可以描绘出它们各类的比例，常用饼图和条形图表示。

1、饼图

饼图又称圆饼图、圆形图，它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。

2、条形图

条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。用于观察不同类别数据的多少或分布情况。

3、环形图

特点：环形图中间有一个“空洞”

与饼图的区别：

环形图可以比较不同变量之间的结构差异
饼图只能显示一个变量各部分所占的比重

二、用图形展示定量数据

定性数据的图示方法（饼图、条形图、环形图）都适用于定量数据。定量数据还有一些特定的图示方法（如直方图、折线图、散点图等），它们并不适用于定性数据。

（一）生成频数分布表

生成定量数据的频数分布表时，首先是将数据进行分组，然后再统计出各组别的数据频数。

步骤：
1、对数据进行分组
组数的多少应以能够适当的观察数据的分布特征为准，一般的分组个数在5-15之间。
2、确定组距
组距是指每个组变量值中的最大值与最小值之差。
最大值成为上限，最小值称为下限，则：组距 = 上限 - 下限。
3、统计出各组的频数及频数分布表。

确定组距的原则：
1、要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。
2、要能准确地清晰地反映总体单位的分布特征

在确定组距时，在研究的现象变动比较均匀的情况下，可以采用等距分组；而当研究的现象变动很不均匀时，则一般采用不等距分组。

注意：在统计各组频数时，恰好等于某一组的组限时，则采取上限不在内的原则，即将该频数计算在与下限相同的组内。即每个组区间都是左闭右开，[0，100)，[100，200)，[200，300)，100在二组，200在第三组。

（二）定量数的图形表示

常用来表述定量数据的图形有：直方图、折线图和散点图。此外还有茎叶图、箱线图等。excel不能绘制茎叶图和箱线图。

1、直方图

用横坐标代表变量分组，纵坐标代表各变量值出现的频数，这样，各组与相应的频数就形成了一个矩阵，即直方图。

直方图与条形图的区别：
1、条形图中的每一矩形表示一个类别，其宽度没有意义，直方图的宽度表示各组的组距。
2、由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列。

2、折线图

折线图是利用线段的升降来说明现象变动的一种统计图。它主要用于表示现象的分配情况，现象在时间上的变化或两个现象之间依存关系等。

3、散点图

散点图可以反映两个变量之间的关系。

三、用统计表来表示数据

统计表和统计图形是显示统计数据的两种方式。

统计表是一种用密集的形式归纳数据的方法。它主要是利用行和列中的数据来表述现象特征。

使用统计表的目的
1、在文章使用它以支持自己的观点。
2、利用它组织数据。

统计表的组成
统计表一般由五个部分组成：表头、行标题、列标题、数据资料和表外附加。

四、用数字来概括数据

从一组数据中找出它的分布规律及本质特征，需要从两个方面考察：
1、该组数据的集中趋势，即该组数据的数值向其中心值的靠拢程度。
2、该组数据的离散程度，它反映的是该组数据的各个数值远离中心值的趋势和程度。

（一）定性数据的数字特征

测量定性数据集中趋势常用的方法是计算百分比、中位数、众数。

1、中位数

在定性数据中，中位数适用于顺序数据，不适用分类数据。

中位数是数据按照大小排列之后位于中间的那个数（如果样本量为奇数），或中间两个数的平均（如果样本量为偶数）。

2、众数

是数据中出现次数或出现频率最多的数值。

（二）定量数据的数字特征

反映定量数据集中趋势的统计量（水平度量）：平均数、中位数、众数和分位数等。
反映定量数据离散程度的统计量（差异度量）：极差、四分位差、标准差、方差、离散系数、标准分数。

1、水平度量

（1）平均数

平均数分为简单平均数和加权平均数。

① 简单平均数

把一个变量的所有观测值相加，再除以观测值的数目。

② 加权平均数

根据分组数据计算。假定数据被分成 n 组，各组的组中值是 $x_i（i=0,1,2,...,n）$ ，各组的频数是 $f_i（i=0,1,2,...,n）$ ，权数为各组的频数。

$\overline{X}=\frac{\sum_{i=1}^{n}{x_i f_i}}{\sum_{i=1}^{n}{f_i}}$

说明：组中值 = (上限 + 下限) / 2

（2）中位数

（3）众数

在这里插入图片描述

2、差异度量

（1）极差

极差又称全距，是最简单的离散指标，它是一组数据中的最大值与最小值之差。
$R=x_{max}-x_{min}$

极差越大，数据的离散程度越大，各个观测值分布的越分散。

优点：计算非常简单
缺点：极差仅受最大值和最小值的影响，不能反映一组数据变量分布的情况，而且它非常容易受数据中极端值的影响，因此不能准确的描述数据的离散程度。

（2）方差和标准差

① 方差

方差是各个变量值和其均值离差平方的平均数。它反映了样本中各个观测值到其均值的平均离散程度。方差越大，说明离散程度越大。

未分组数据：
$\sigma = \frac{\sum{(x_i-\overline{x})^2}}{n}$

分组数据：
$\sigma = \frac{\sum{(x_i-\overline{x})^2f_i}}{\sum{f_i}}$

② 标准差

标准差是方差的平方根，它与方差相比更具量纲性，而且与变量值的计量单位相同，使用的范围也比方差更广泛。
在这里插入图片描述
在一个统计样本中，其标准差越大，说明它的各个观测值分布的越分散，它的趋中程度就越差。反之，其标准差越小，说明各个观测值分布的越集中，趋中程度就越好。

③ 离散系数

离散系数也称为变异系数、标准差系数，它是将一组数据的标准差除以其均值，用来测度数据离散程度的相对数。主要用于比较不同组别数据的离散程度。离散系数越大，说明数据的离散程度也越大。

计算离散系数的原因：
极差、方差、标准差都是反映数据分散程度的绝对值，其数值大小受数据本身数值大小和计量单位的影响。为消除数据本身大小和计量单位不同对离散程度测度值的影响，需要计算离散系数。

④ 标准分数

在这里插入图片描述

统计学_第二章_数据描述

一、用图表展示定性数据

（一）生成频数分布表

（二）定性数据的图形表示

1、饼图

2、条形图

3、环形图

二、用图形展示定量数据

（一）生成频数分布表

（二）定量数的图形表示

1、直方图

2、折线图

3、散点图

三、用统计表来表示数据

四、用数字来概括数据

（一）定性数据的数字特征

1、中位数

2、众数

（二）定量数据的数字特征

1、水平度量

（1）平均数

（2）中位数

（3）众数

2、差异度量

（1）极差

（2）方差和标准差

猜你喜欢