[DataAnalysis]机器学习数据类型和数据质量

数据类型

1、属性:

属性是对象的性质或者特性,它因对象而异,或随着时间变化。

我们根据属性值的运算定义下面四种属性类型:

数据集的一般特性

1、维度:分析高维数据有时会陷入维灾难,数据预处理的一个重要动机就是减少维度。

2、稀疏性:有些数据集如果具有非对称特征的数据集(一个对象的大部分属性上的值都是0,出现非零属性值才是最重要的)。实际上稀疏性是一个优点,因为只有非零值才需要存储和处理,这将节省大量的计算时间和存储空间。

3、分辨率:分辨率太高,可能无法识别模式或者掩埋在噪声中,如果分辨率太低,可能模式无法出现。

数据质量

1、测量误差和数据收集错误

2、噪声(测量误差的随机部分)和伪象(确定性的失真)

3、精度、偏倚和准确率

4、离群点

5、遗漏值

6、不一致的值

7、重复数据

8、应用问题:时效性和相关性

猜你喜欢

转载自blog.csdn.net/TOMOCAT/article/details/82531767
今日推荐