数据分析方法——01描述性统计

01.描述性统计

基本知识：

描述性统计是指运用制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。

数据的分布特征：

分布的集中趋势，反应各数据向其中心值靠拢或聚集的程度（平均数，中位数，四分位数，众数）
分布的离散程度，反应各数据远离其中心值的趋势（异众比率，四分位差，极差,平均差，方差，标准差，离散系数）
分布的形状，反应数据分布的偏斜程度和峰度（偏态系数，峰度系数）

----

平均数（均值）（mean） ：一组数据相加后除以数据的个数而得到结果。

中位数（median） ：一组数据排序后处于中间位置上的变量值。

四分位数（quartile） ：一组数据排序后处于25%（下四分位数）和75%（上四分位数）位置上的值。先计算位置，然后计算四分位数的值。50%处即为中位数。

众数（mode） ：一组数据中出现频数最多的数值。

附：众数vs中位数vs平均数

众数是一组数据分布的峰值，不受极端值的影响。主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值，不受数据极端值的影响。主要适合作为顺序数据的集中趋势测度值。

平均数是针对数值型数据计算的，利用了全部数据信息，它是实际中应用最广泛的集中趋势测度值，容易受极端值的影响。

----

分类数据-

异众比率（variation ratio） ：是指非众数组的频数占总频数的比例。

顺序数据-

四分位差（quartile deviation） ：上四分位数与下四分位数之差。

数值型数据-

极差（全距）（range） ：一组数据的最大值与最小值之差。

平均差(mean deviation) ：各变量值与其平均数离差绝对值的平均数。

方差(variance) ：各变量值与其平均数离差平方的平均数。

标准差(standard deviation) ：方差的平方根。

相对离散程度-

离散系数（变异系数）（coefficient of variation） ：是一组数据的标准差与其相应的平均数之比。

----

偏态（skewness） :数据分布的不对称性，称为偏态。

峰态(kurtosis) ：数据分布的平峰或尖峰程度，称为峰态。

----

R语言实现：

-----数据未分组（即为整体数据）------

1. summary()函数

——最大值，最小值，四分位数（上，下），中位数，均值

2.str()函数

——以简洁的方式显示对象的数据结构及内容，可以查看数据框中每个变量的属性

3. attributes()函数

——可以提取对象除长度和模式以外的各种属性

4. Hmisc包中的describe()函数

——变量和观测的数量、缺失值和唯一值的数目、平均值、分位数，以及五个最大的值和五个最小的值

5.psych包中的describe()函数

——非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误

6.pastecs包中的stat.desc()的函数

——所有值、空值、缺失值、最小、最大、值域（范围）、总和、中位数、均值、均值标准误、均值置信度95%的置信区间、方差、标准差及变异系数

stat.desc（x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95）

其中的x是一个数据框或时间序列。

若basic=TRUE（默认值），则计算其中所有值、空值、缺失值的数量，以及最小值、最大值、值域，还有总和。

若desc=TRUE（同样也是默认值），则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。

最后，若norm=TRUE（不是默认的），则返回正态分布统计量，包括偏度和峰度（以及它们的统计显著程度）和Shapiro–Wilk正态检验结果。

这里使用了p值来计算平均数的置信区间（默认置信度为0.95）。

-----数据分组------

1.aggregate()函数

仅允许在每次调用中使用平均数、标准差这样的单返回值函数，它无法一次返回若干个统计量

2.by()函数

格式为：by(data,INDICES,FUN)，其中data是一个数据框或矩阵，INDICES是一个因子或因子组成的列表，定义了分组，FUN是任意函数。

3.doBy包中的summaryBy()函数

4.psych包中的describe.by()函数

参考：

[1]《统计学（第六版）》贾俊平、何晓群著；中国人民出版社

[2] https://blog.csdn.net/ssxysxy123/article/details/51878487

[3] www.cnblogs.com/wujiadong2014/p/4924541.html

数据分析方法——01描述性统计

猜你喜欢