数据与挖掘 笔记3

1.标准化的方法
第一种 有上下限 比如最高的98000与最低的12000,定义73600为(0,1)之间的一个值的公式。
第二种 无限,计算偏离值的方法。
这里写图片描述

2.描述数据的方式
平均数,中位数(用的较多),高频数,方差:即Var(x)

3.A与B是否相关?
这里写图片描述
值得注意的是,当=0时,并不意味着无关,只是不呈线性相关。
这里写图片描述
叉状表格,调查象棋与读书的相关性,红色框内是 本应该有的(expected)人数和比例
公式算出来的值够大时,则相关。

4.高阶数据的描述
基础的四维描述是盒子图:一个盒子越扁说明
在该维度上25%到75%之间的数据分布较为集中
三维以内都可绘,四维以上倾向于用平行折线图。
落在每个分轴的,即为在该轴的取值。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42511216/article/details/81677060
今日推荐