对称二元变量和非对称二元变量

概念

二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布尔属性。

二元属性(例子)。倘若属性smoker表示患者对象,1表示患者抽烟,0表示患者不抽烟。

一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即关于哪个结果应该用0或1编码并无偏好(例如,属性gender的两种状态男和女)。

一个二元属性是非对称的,如果其状态的结果不是同等重要的。如艾滋病病毒(HIV)化验的阳性和阴性结果。为方便计,我们将用1对最重要的结果(通常是稀有的)编码(例如,HIV阳性),而另一个用0编码(例如,HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。

相似度度量

判断两个对象(这两个对象只包含相同的二元属性)的相似性/相异性

<img src='1.png'>

q:两个对象i和j都取1的属性数

r:对象i取0对象j取1的属性数

s:对象i取1对象j取0的属性数

t: 两个对象i和j都取0的属性数

对称二元变量下的相异性

<img src='2.png'>

非对称二元变量下的相异性

<img src="3.png">

相似性:

<img src="4.png">

即1-相异性

sim(i,j)系数又称为Jaccard系数

猜你喜欢

转载自blog.csdn.net/dpengwang/article/details/81735576