daidingdaiding——分析PCP平行坐标图

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_41185868/article/details/86382176

数据特殊属性(35)、标签之间关系SP可视化分析:如果把M用1 代表,R用0代表,就会得到散点图。

(1)、分析PCP平行坐标图,发现岩石数据与水雷数据在属性索引值35 左右有所分离。则标签与索引值35 附近的属性的关系也应该显示这种分离,所以,画出标签和第35个属性的散点图。

1、但是可以看到一个交会图常见的问题。当其中一个变量只取有限的几个值时,很多点会重叠在一起。如果这种点很多,则只能看到很粗的一条线,分辨不出这些点是如何沿线分布的。

(1)、优化SP可视化:通过2个小技巧克服了上述的问题,经过扰动和半透明处理。

1)、每个点都加上一个小的随机数,产生了少量的离散值(这里是对标签值进行了处理)。标签值最初是0或1。在代码中可以看到,标签值加上了一个在−0.1 和0.1 之间均匀分布的随机数,这样就把这些点分散开,但是又不至于把这2 条线混淆。

2)、此外,这些点绘制时取alpha=0.5,这样这些点就是半透明的。那么在散点图中若多个点落在一个位置就会形成一个更黑的区域,这时需要对数据做一些微调使你能看到你想看到的。

2、对SP可视化进行分析:可以注意到第35个属性在左上方的点更加集中一些,然而在下面的数据从右到左分布得更加均匀些。上方的数据对应水雷的数据。下面的数据对应岩石的数据。

由图观察可知,可以因此建立一个分类器,判断第35 个属性是否大于或小于0.5。如果大于0.5,就判断为岩石,如果小于0.5,就判断为水雷。在第35个属性值小于0.5 的实例中,水雷的分布要更密集,而且在属性值小于0.5 的实例中,岩石的分布要稀疏得多。这样就可以获得一个比随机猜测好些的结果。

 

猜你喜欢

转载自blog.csdn.net/qq_41185868/article/details/86382176