统计学_第二章_数据描述

一、用图表展示定性数据

定性数据包括分类数据和顺序数据,通常可以用频数分布图和图形来描述。

(一)生成频数分布表

定性数据生成频数分布表的步骤:
1、列出个类别
2、计算各类别的频数
3、生成频数分布表
注:频数是指频数分布表中落在某一特定类别的数据个数。

频数分布表的作用:通过频数分布可以观察不同类别数据的分布情况。

用excel生成频数分布表有几种途径,一种最简单的方法就是使用“数据透视表”进行计数和汇总。

(二)定性数据的图形表示

定性数据可以描绘出它们各类的比例,常用饼图和条形图表示。

1、饼图

饼图又称圆饼图、圆形图,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究

2、条形图

条形图是用宽度相同的条形的高度或长度来表述数据多少的图形。用于观察不同类别数据的多少或分布情况

3、环形图

特点:环形图中间有一个“空洞”

与饼图的区别:

  • 环形图可以比较不同变量之间的结构差异
  • 饼图只能显示一个变量各部分所占的比重

二、用图形展示定量数据

定性数据的图示方法(饼图、条形图、环形图)都适用于定量数据。定量数据还有一些特定的图示方法(如直方图、折线图、散点图等),它们并不适用于定性数据。

(一)生成频数分布表

生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数。

步骤:
1、对数据进行分组
组数的多少应以能够适当的观察数据的分布特征为准,一般的分组个数在5-15之间。
2、确定组距
组距是指每个组变量值中的最大值与最小值之差。
最大值成为上限,最小值称为下限,则:组距 = 上限 - 下限。
3、统计出各组的频数及频数分布表。

确定组距的原则:
1、要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。
2、要能准确地清晰地反映总体单位的分布特征

在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,则一般采用不等距分组。

注意:在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。即每个组区间都是左闭右开,[0,100),[100,200),[200,300),100在二组,200在第三组。

(二)定量数的图形表示

常用来表述定量数据的图形有:直方图、折线图和散点图。此外还有茎叶图、箱线图等。excel不能绘制茎叶图和箱线图。

1、直方图

用横坐标代表变量分组,纵坐标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩阵,即直方图。

直方图与条形图的区别:
1、条形图中的每一矩形表示一个类别,其宽度没有意义,直方图的宽度表示各组的组距。
2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。

2、折线图

折线图是利用线段的升降来说明现象变动的一种统计图。它主要用于表示现象的分配情况,现象在时间上的变化或两个现象之间依存关系等。

3、散点图

散点图可以反映两个变量之间的关系。

三、用统计表来表示数据

统计表和统计图形是显示统计数据的两种方式。

统计表是一种用密集的形式归纳数据的方法。它主要是利用行和列中的数据来表述现象特征。

使用统计表的目的
1、在文章使用它以支持自己的观点。
2、利用它组织数据。

统计表的组成
统计表一般由五个部分组成:表头、行标题、列标题、数据资料和表外附加。

四、用数字来概括数据

从一组数据中找出它的分布规律及本质特征,需要从两个方面考察:
1、该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度。
2、该组数据的离散程度,它反映的是该组数据的各个数值远离中心值的趋势和程度。

(一)定性数据的数字特征

测量定性数据集中趋势常用的方法是计算百分比、中位数、众数

1、中位数

在定性数据中,中位数适用于顺序数据,不适用分类数据。

中位数是数据按照大小排列之后位于中间的那个数(如果样本量为奇数),或中间两个数的平均(如果样本量为偶数)。

2、众数

是数据中出现次数或出现频率最多的数值。

(二)定量数据的数字特征

反映定量数据集中趋势的统计量(水平度量):平均数、中位数、众数和分位数等。
反映定量数据离散程度的统计量(差异度量):极差、四分位差、标准差、方差、离散系数、标准分数。

1、水平度量

(1)平均数

平均数分为简单平均数和加权平均数。

① 简单平均数

把一个变量的所有观测值相加,再除以观测值的数目。

② 加权平均数

根据分组数据计算。假定数据被分成 n 组,各组的组中值是 x i ( i = 0 , 1 , 2 , . . . , n ) x_i(i=0,1,2,...,n) xii=0,1,2,...,n,各组的频数是 f i ( i = 0 , 1 , 2 , . . . , n ) f_i(i=0,1,2,...,n) fii=0,1,2,...,n,权数为各组的频数。

X ‾ = ∑ i = 1 n x i f i ∑ i = 1 n f i \overline{X}=\frac{\sum_{i=1}^{n}{x_i f_i}}{\sum_{i=1}^{n}{f_i}} X=i=1nfii=1nxifi

说明:组中值 = (上限 + 下限) / 2

(2)中位数

(3)众数

在这里插入图片描述

2、差异度量

(1)极差

极差又称全距,是最简单的离散指标,它是一组数据中的最大值与最小值之差。
R = x m a x − x m i n R=x_{max}-x_{min} R=xmaxxmin

极差越大,数据的离散程度越大,各个观测值分布的越分散。

优点:计算非常简单
缺点:极差仅受最大值和最小值的影响,不能反映一组数据变量分布的情况,而且它非常容易受数据中极端值的影响,因此不能准确的描述数据的离散程度

(2)方差和标准差

① 方差

方差是各个变量值和其均值离差平方的平均数。它反映了样本中各个观测值到其均值的平均离散程度。方差越大,说明离散程度越大。

未分组数据:
σ = ∑ ( x i − x ‾ ) 2 n \sigma = \frac{\sum{(x_i-\overline{x})^2}}{n} σ=n(xix)2

分组数据:
σ = ∑ ( x i − x ‾ ) 2 f i ∑ f i \sigma = \frac{\sum{(x_i-\overline{x})^2f_i}}{\sum{f_i}} σ=fi(xix)2fi

② 标准差

标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围也比方差更广泛。
在这里插入图片描述
在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。反之,其标准差越小,说明各个观测值分布的越集中,趋中程度就越好。

③ 离散系数

离散系数也称为变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。主要用于比较不同组别数据的离散程度。离散系数越大,说明数据的离散程度也越大。

计算离散系数的原因:
极差、方差、标准差都是反映数据分散程度的绝对值,其数值大小受数据本身数值大小和计量单位的影响。为消除数据本身大小和计量单位不同对离散程度测度值的影响,需要计算离散系数。

④ 标准分数

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_36569032/article/details/108431289
今日推荐