机器学习中数据属性及相关处理总结

想要继续的往前走，必须有深厚的内功，现在就是在修炼内功的时候，其实就是扎马步，略略略。

看到一个问题的求解，首先需要明确我们处理的是什么数据，不同的数据当然要不同的处理呀。数据的属性，也可以叫特征，变量，维度等，我们对属性进行研究，不同的属性给与不同的处理。

属性的划分：

标称属性（分类属性）,也就是只具有类别信息，只是一个符号和事物的名称。对于标称属性，数学运算时真的没有一丢丢用啊，比如什么均值，中位数，方差。。但众数还是有用的，是一种中心趋势度量。
二元属性（布尔属性），是1中标称属性的特殊情况。
序数属性，只是表明数据的值之间存在某种有意义的顺序，但具体的差值是不知道的，比如小，中，大的情况。考虑计算均值方差也是没有什么意义的，但可以使用众数和中位数来表示。 123的属性都是定性属性。
数值属性，允许我们进行数值运算，以长度和温度为代表。温度可以加减，但长度还能做除法。
连续属性，上述的1，2，3，4为离散属性，一般情况下，连续属性还是用浮点变量来表示。

对数据的基本描述：

从中心趋势度量角度分析数据
从数据的散度角度来分析数据
从数据可视化角度来分析数据

首先先从中心趋势度量角度分析数据：包括均值，中位数，众数，加权算术平均，中列数（max+min/2）。

其次可以从数据的散布角度来度量，考虑数值数据散布或发散的度量，包括：极差，分位数，四分位数，四分位数极差，五数概括（盒图），方差和标准差。

最后，我们可以从数据的可视化表示的图形角度来考虑数据：分位数图，分位数-分位数图（q-q图），直方图（频率直方图），散点图等。

【数据矩阵】有了数据之后，我们对数据进行统一的处理，然后形成了数据矩阵，每一行代表一个对象及其具有的属性。

【相似性矩阵】肯定是对于对象和对象之间来说的呀，而且一定是对称矩阵。

【相异性矩阵】肯定是对于对象和对象之间来说的呀，而且一定是对称矩阵。

相似性和相异性的判断应该可以说是类似的，我们现在只考虑相似性把，然后举一反三，推广到相异性就好。

对于标称属性而言，就是判断所有的属性中，相同的属性的个数占总属性的比例；对于二元属性，根据属性之间的重要性程度，若重要性程度相同，则采用对称的二元属性，若重要性不同，则采用非对称的二元属性（Jaccard系数）；对于数值属性而言，根据定义的距离来度量，曼哈顿距离，欧几里得距离，闵可夫斯基距离（p范数），切比雪夫距离（上确界距离，无穷范数）；对于序数属性，将序数属性映射到[0,1]区间上，然后利用数值属性的距离度量来得相似度。

如果是混合类型属性，如果分开之后的分析是可以兼容的，那么可行，但大部分情况是不兼容的，也就是需要处理混合属性的情况。就是将其统一的转换到[0,1]区间上来进行处理。

机器学习中数据属性及相关处理总结

猜你喜欢