CH2-认识数据

CH2-认识数据

属性

数据集由数据对象组成(也就是每一个实体,样本),数据对象用属性(维度、特征)描述

  • 标称属性:一些符号和事物的名称,是分类的而不必具有意义的序列,如头发颜色和学历是描述人的属性。

  • 二元属性:只有0、1两种状态,可以对称(男/女),也可以不对称(HIV阴性)

  • 序数属性: 可能的值具有有意义的序,如军衔有下士、中士、上尉、将军。

  • 数值属性: 定量的,用实数值表示

统计描述

为数据预处理提供了基本的分析基础

  • 中心趋势:均值、加权平均、中位数、众数

    • 当数据很大时,我们用插值计算估算整个数据集中中位数的值

    • 在众数的计算中中,适度倾斜的单峰频率可以用公式近似计算

      \[mean -mode\approx3 \times(mean - median) \]

  • 数据散布:极差、分位数、四分位数、四分位数极差(IQR)、标准差

    • IQR可以用来识别离群点,一般为1.5*IQR以外的
    • 利用盒图来展示五数概括
    • 标准差是数据集发散的很好指示器
  • 图形显示:分位数图、直方图、散点图

    • 利用分位数-分位数图观察一个分布与另一个分布的比较情况
    • 散点图可以考察点簇和离群点、或者相关联系的可能性

数据的相似和相异性

我们如何去度量数据的相似性和相异性(即数据的邻近性)?

如何存放数据对象和相异性值

利用数据矩阵 - N×P(N个对象P个属性)的矩阵保存数据样本

利用一个 - N×N的矩阵保存对象的相似度,也就是相异性矩阵,矩阵是对称的

对于标称数据:sim (相似性)= 1 - d(i,j)(1-相异性)

标称属性

对于标称属性,我们利用两个对象之间属性不匹配率来计算,其中P是所有的属性总数,m是两个对象取值相同的属性数

\[d(i,j) = (p-m)/p \]

举个例子:

对象 头发颜色 婚姻状况 职业
Dave 已婚 工程师
Jony 未婚 工程师
Maria 离异 医生

则d(dave,jony) = (3 - 2)/3 = 0.33,Dave和Jony的相异性0.33

二元属性

二元属性只有两种状态,那么我们有如下表格

对象j取1的属性数 对象j取0的属性数 sum
对象i取1的属性数 q r q+r
对象i取0的属性数 s t s+t
sum q+s r+t p

q表示对象i和j都取1的属性数,r表示对象i取0,对象j取1的属性数……以此类推,属性的总数是p = q+r+s+t,对于对称的二元属性:

\[d(i,j) = r+s/p \]

对于非对称的二元属性,两者不是一样重要的,比如HIV阳性,那么我们认为对象i和j都取值为1的情况(正匹配),比两个都取值为0(负匹配)更有意义,在计算时我们将t抛弃:

\[d(i,j) = r+s/q+r+s \]

互补的,我们得到相似系数:

\[sim(i,j) = 1-d(i,j) \]

这个sim(i,j)我们称之为Jaccard相似似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

ps:说白了就是抛弃掉对象i和对象j都取0的属性数,突出对象i和对象j都取1的情况。比如两个对象A,B,我们要判断他们两个人的相似性,一个二元属性,两个人是否得过HIV,两个人都是True,另一个二元属性,这两个人是否去过非洲,两个人都是False,我们认为这个属性不重要,把他抛弃(这在后面混合类型相异性中有用到)。

数值属性

相异性度量:我们利用欧几里得距离(L2范数)、曼哈顿距离(L1范数)、闵可夫斯基距离(LP范数)、上确界距离(Lmax)

  • 欧几里得距离和曼哈顿距离都是闵可夫斯基距离的特殊情况
  • 度量前的数据应该是规范化的
  • 上确界距离:两个对象该属性的最大值差

序数属性

将序数进行赋值,然后映射到[0,1]这个区间上,将其变为数值属性,然后利用数值属性的方法进行度量

比如及格、良好,优秀,我们可以赋值为1,2,3利用公式z = (r -1)/(m - 1)进行映射为0,0.5,1,m是最大值,r是当前值.

混合类型

书里介绍的主要方法是将所有的属性转换到共同的区间[0.0,1.0]

对象的相异性定义为:(δ是一个指示符,如果xif或xjf缺失,或者二者等于0且是非对称的二元属性,则δ为0,否则为1)

\[d(i,j) = \frac {\sum_{f=1}^p\delta^f_{ij}d^f_{ij}}{\sum_{f=1}^p\delta^f_{ij}} \]

大白话:就是抛弃了缺失值和负匹配的值。

有了定义,那么我们如何将属性转换到共同的区间呢?

  • f(属性)是数值的:d(i,j) = |i - j|/(maxi - maxj)(数值差除以极差)
  • f是标称或者二元的:两个对象的属性相等则d(i,j) = 0,不相等为1
  • f是序列的,和原来一样

假设一组数据,有数值、二元、序列三种属性,我们就分别得到三个相异矩阵,然后将三个矩阵中的每一项取平均(相加除以三)就得到了描述混合类型的相异性矩阵。

余弦相似性

当数值数据比较稀疏的时候,比如文档、基因,传统的距离度量效果不好,比如文档,我们关注的是共有的词,要忽略0匹配的值。我们利用余弦相似性来判断文档:

\[sim(x,y) = \frac{x·y}{||x|| ||y||} \]

其中||x||是向量x的长度,||y||是向量y的长度

大白话:余弦(cosx) = 向量积/向量模的积,夹角越大,cosx越接近于0,两者相关性越小,当cosx = 0时,二者正交,没有相关性,越接近与1,两者夹角越小,相关性越大

夹角越小,向量匹配

  • Tanimoto系数:x和y的共有属性和与x和y具有的属性之间的比较

sim(x,y) = x·y/(x·x+y·y-x·y)

大白话:Tanimoto系数可以表示为公式两个集合的交比上两个集合的并。两个人拥有相同的东西/两个人所有的东西可以看出两个人的相关程度,如果拥有相同东西越多表明两个人的兴趣爱好越相同(一般情况下)

猜你喜欢

转载自www.cnblogs.com/lingxueqian/p/13385533.html