数据挖掘导论学习笔记(3)----- 汇总统计

1.频率和众数  (是一组数据中出现次数最多的数值,叫众数)

2.百分位数

3.位置度量:均值(mean)和中位数(median)

   均值:统计学术语,与“平均”(Average)意义相同。例如: l、3、6,10、20这5个数的均值是8。也同期望

   截断均值(trimmed mean):截断均值是去掉高、低极端值得到的均值。应当避免在两端截断的比例太大,因为这可能导致损失有价值的信息

   中位数(Medians)统计学名词,是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。(注意:中位数和众数不同,中位数不一定在这组数据中。而众数必定在该组数据)

4.散步度量:极差(range)和方差

   极差(range): 给定属性x,它具有m个值{x1,x2......Xm}

                           range(x) = max(x)-min(x)= Xm-X1

    方差,标准差。

    同样方差对离群值敏感,常常使用下路度量定义:

    绝对平均偏差(absolute average deviation,ADD)

    中位数绝对偏差(median absolute deviation,MAD)

     四分位偏差(interquartile range,IQR)

5.多元汇总统计

    协方差矩阵(covariance matrix)

    相关矩阵(correlation matrix)

猜你喜欢

转载自defungo.iteye.com/blog/1772110
今日推荐