数据分析方法——01描述性统计

01.描述性统计
基本知识:
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。
数据的分布特征:
  • 分布的集中趋势,反应各数据向其中心值靠拢或聚集的程度(平均数,中位数,四分位数,众数)
  • 分布的离散程度,反应各数据远离其中心值的趋势(异众比率,四分位差,极差,平均差,方差,标准差,离散系数)
  • 分布的形状,反应数据分布的偏斜程度和峰度(偏态系数,峰度系数)
----
平均数(均值)(mean) :一组数据相加后除以数据的个数而得到结果。
中位数(median) 一组数据排序后 处于中间位置上的变量值。
四分位数(quartile) 一组数据排序后 处于25%(下四分位数)和75%(上四分位数)位置上的值。先计算位置,然后计算四分位数的值。50%处即为中位数。
众数(mode) :一组数据中出现频数最多的数值。
附:众数vs中位数vs平均数
众数是一组数据分布的峰值,不受极端值的影响。主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受数据极端值的影响。主要适合作为顺序数据的集中趋势测度值。
平均数是针对数值型数据计算的,利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值,容易受极端值的影响。
----
分类数据-
异众比率(variation ratio) :是指非众数组的频数占总频数的比例。
顺序数据-
四分位差(quartile deviation) :上四分位数与下四分位数之差。
数值型数据-
极差(全距)(range) :一组数据的最大值与最小值之差。
平均差(mean deviation) :各变量值与其平均数离差绝对值的平均数。
方差(variance) :各变量值与其平均数离差平方的平均数。
标准差(standard deviation) :方差的平方根。
相对离散程度-
离散系数(变异系数)(coefficient of variation) :是一组数据的标准差与其相应的平均数之比。
----
偏态(skewness) :数据分布的不对称性,称为偏态。
峰态(kurtosis) :数据分布的平峰或尖峰程度,称为峰态。
----
R语言实现:
-----数据未分组(即为整体数据)------
1. summary()函数
——最大值,最小值,四分位数(上,下),中位数,均值
2.str()函数
——以简洁的方式显示对象的数据结构及内容,可以查看数据框中每个变量的属性
3. attributes()函数
——可以提取对象除长度和模式以外的各种属性
4. Hmisc包中的describe()函数
——变量和观测的数量、缺失值和唯一值的数目、平均值、分位数,以及五个最大的值和五个最小的值
5.psych包中的describe()函数
——非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误
6.pastecs包中的stat.desc()的函数
——所有值、空值、缺失值、最小、最大、值域(范围)、总和、中位数、均值、均值标准误、均值置信度95%的置信区间、方差、标准差及变异系数
stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
其中的x是一个数据框或时间序列。
若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。
若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。
最后,若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显著程度)和Shapiro–Wilk正态检验结果。
这里使用了p值来计算平均数的置信区间(默认置信度为0.95)。

-----数据分组------
1.aggregate()函数
仅允许在每次调用中使用平均数、标准差这样的单返回值函数,它无法一次返回若干个统计量
2.by()函数
格式为:by(data,INDICES,FUN),其中data是一个数据框或矩阵,INDICES是一个因子或因子组成的列表,定义了分组,FUN是任意函数。
3.doBy包中的summaryBy()函数
4.psych包中的describe.by()函数

参考:
[1]《统计学(第六版)》 贾俊平、何晓群著;中国人民出版社

猜你喜欢

转载自blog.csdn.net/c_pumpkin/article/details/81009221