机器学习中数据属性及相关处理总结

       想要继续的往前走,必须有深厚的内功,现在就是在修炼内功的时候,其实就是扎马步,略略略。

        看到一个问题的求解,首先需要明确我们处理的是什么数据,不同的数据当然要不同的处理呀。数据的属性,也可以叫特征,变量,维度等,我们对属性进行研究,不同的属性给与不同的处理。

      属性的划分:

  1.  标称属性(分类属性),也就是只具有类别信息,只是一个符号和事物的名称。对于标称属性,数学运算时真的没有一丢丢用啊,比如什么均值,中位数,方差。。但众数还是有用的,是一种中心趋势度量。
  2.  二元属性(布尔属性),是1中标称属性的特殊情况。
  3. 序数属性,只是表明数据的值之间存在某种有意义的顺序,但具体的差值是不知道的,比如小,中,大的情况。考虑计算均值方差也是没有什么意义的,但可以使用众数和中位数来表示。  123的属性都是定性属性。
  4. 数值属性,允许我们进行数值运算,以长度和温度为代表。温度可以加减,但长度还能做除法。
  5. 连续属性,上述的1,2,3,4为离散属性,一般情况下,连续属性还是用浮点变量来表示。

      对数据的基本描述:

  1. 从中心趋势度量角度分析数据
  2. 从数据的散度角度来分析数据
  3. 从数据可视化角度来分析数据

      首先先从中心趋势度量角度分析数据:包括均值,中位数,众数,加权算术平均,中列数(max+min/2)。

     其次可以从数据的散布角度来度量,考虑数值数据散布或发散的度量,包括:极差,分位数,四分位数,四分位数极差,五数概括(盒图),方差和标准差。

     最后,我们可以从数据的可视化表示的图形角度来考虑数据:分位数图,分位数-分位数图(q-q图),直方图(频率直方图),散点图等。

       【数据矩阵】有了数据之后,我们对数据进行统一的处理,然后形成了数据矩阵,每一行代表一个对象及其具有的属性。

       【相似性矩阵】肯定是对于对象和对象之间来说的呀,而且一定是对称矩阵。

       【相异性矩阵】肯定是对于对象和对象之间来说的呀,而且一定是对称矩阵。

      相似性和相异性的判断应该可以说是类似的,我们现在只考虑相似性把,然后举一反三,推广到相异性就好。

      对于标称属性而言,就是判断所有的属性中,相同的属性的个数占总属性的比例;对于二元属性,根据属性之间的重要性程度,若重要性程度相同,则采用对称的二元属性,若重要性不同,则采用非对称的二元属性(Jaccard系数);对于数值属性而言,根据定义的距离来度量,曼哈顿距离,欧几里得距离,闵可夫斯基距离(p范数),切比雪夫距离(上确界距离,无穷范数);对于序数属性,将序数属性映射到[0,1]区间上,然后利用数值属性的距离度量来得相似度。

      如果是混合类型属性,如果分开之后的分析是可以兼容的,那么可行,但大部分情况是不兼容的,也就是需要处理混合属性的情况。就是将其统一的转换到[0,1]区间上来进行处理。

猜你喜欢

转载自blog.csdn.net/angela2016/article/details/81233821
今日推荐