叶梓老师开讲人工智能入门-R语言数据分析与数据挖掘31

反映数据分布趋势的指标

ß代表集中趋势的指标

ü平均数(算术(截尾)、几何、调和)

ü中位数

ü众数

ß代表离散趋势的指标

ü极差:range = max-min

ü方差与标准差

ü分位数( Percentage)

ü变异系数

平均值

ß均值即数据的算术平均数,是数据中心趋势的主要度量指标,

ß设变量有n个测量值         ,则算术均值为:

人工智能入门-R语言数据分析与数据挖掘31
 

ß受极大值、极小值的影响大

人工智能入门-R语言数据分析与数据挖掘31


 

截尾均数

ß由于均数较易受极端之的影响,因此可以考虑将数据排序后,按照一定的比例去掉最两端的数据,只是用中部的数据来求均数。

ß如果截尾均数与原均数相比相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消;

ß反之,则说明数据中有极端值,此时截尾均数更好地反映数据的集中趋势。

ß常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。

猜你喜欢

转载自blog.csdn.net/weixin_44292902/article/details/88168456