CH2-认识数据

属性

数据集由数据对象组成（也就是每一个实体，样本），数据对象用属性（维度、特征）描述

标称属性：一些符号和事物的名称，是分类的而不必具有意义的序列，如头发颜色和学历是描述人的属性。
二元属性：只有0、1两种状态，可以对称（男/女），也可以不对称（HIV阴性）
序数属性：可能的值具有有意义的序，如军衔有下士、中士、上尉、将军。
数值属性：定量的，用实数值表示

统计描述

为数据预处理提供了基本的分析基础

中心趋势：均值、加权平均、中位数、众数
- 当数据很大时，我们用插值计算估算整个数据集中中位数的值
- 在众数的计算中中，适度倾斜的单峰频率可以用公式近似计算
  
  \[mean -mode\approx3 \times(mean - median) \]
数据散布：极差、分位数、四分位数、四分位数极差（IQR）、标准差
- IQR可以用来识别离群点，一般为1.5*IQR以外的
- 利用盒图来展示五数概括
- 标准差是数据集发散的很好指示器
图形显示：分位数图、直方图、散点图
- 利用分位数-分位数图观察一个分布与另一个分布的比较情况
- 散点图可以考察点簇和离群点、或者相关联系的可能性

数据的相似和相异性

我们如何去度量数据的相似性和相异性（即数据的邻近性）？

如何存放数据对象和相异性值

利用数据矩阵 - N×P（N个对象P个属性）的矩阵保存数据样本

利用一个 - N×N的矩阵保存对象的相似度，也就是相异性矩阵，矩阵是对称的

对于标称数据：sim （相似性）= 1 - d(i,j)（1-相异性）

标称属性

对于标称属性，我们利用两个对象之间属性不匹配率来计算,其中P是所有的属性总数，m是两个对象取值相同的属性数

\[d(i,j) = (p-m)/p \]

举个例子：

对象	头发颜色	婚姻状况	职业
Dave	黑	已婚	工程师
Jony	黑	未婚	工程师
Maria	黑	离异	医生

则d(dave,jony) = (3 - 2)/3 = 0.33,Dave和Jony的相异性0.33

二元属性

二元属性只有两种状态，那么我们有如下表格

	对象j取1的属性数	对象j取0的属性数	sum
对象i取1的属性数	q	r	q+r
对象i取0的属性数	s	t	s+t
sum	q+s	r+t	p

q表示对象i和j都取1的属性数，r表示对象i取0，对象j取1的属性数……以此类推，属性的总数是p = q+r+s+t，对于对称的二元属性：

\[d(i,j) = r+s/p \]

对于非对称的二元属性，两者不是一样重要的，比如HIV阳性，那么我们认为对象i和j都取值为1的情况（正匹配），比两个都取值为0（负匹配）更有意义，在计算时我们将t抛弃：

\[d(i,j) = r+s/q+r+s \]

互补的，我们得到相似系数：

\[sim(i,j) = 1-d(i,j) \]

这个sim(i,j)我们称之为Jaccard相似似系数（Jaccard similarity coefficient）用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。

ps：说白了就是抛弃掉对象i和对象j都取0的属性数，突出对象i和对象j都取1的情况。比如两个对象A,B，我们要判断他们两个人的相似性，一个二元属性，两个人是否得过HIV，两个人都是True，另一个二元属性，这两个人是否去过非洲，两个人都是False，我们认为这个属性不重要，把他抛弃(这在后面混合类型相异性中有用到)。

数值属性

相异性度量：我们利用欧几里得距离（L2范数）、曼哈顿距离（L1范数）、闵可夫斯基距离（LP范数）、上确界距离（Lmax）

欧几里得距离和曼哈顿距离都是闵可夫斯基距离的特殊情况
度量前的数据应该是规范化的
上确界距离：两个对象该属性的最大值差

序数属性

将序数进行赋值，然后映射到[0,1]这个区间上，将其变为数值属性，然后利用数值属性的方法进行度量

比如及格、良好，优秀，我们可以赋值为1，2，3利用公式z = （r -1）/（m - 1）进行映射为0，0.5，1，m是最大值，r是当前值.

混合类型

书里介绍的主要方法是将所有的属性转换到共同的区间[0.0,1.0]

对象的相异性定义为：（δ是一个指示符，如果xif或xjf缺失，或者二者等于0且是非对称的二元属性，则δ为0，否则为1）

\[d(i,j) = \frac {\sum_{f=1}^p\delta^f_{ij}d^f_{ij}}{\sum_{f=1}^p\delta^f_{ij}} \]

大白话：就是抛弃了缺失值和负匹配的值。

有了定义，那么我们如何将属性转换到共同的区间呢？

f（属性）是数值的：d(i,j) = |i - j|/（maxi - maxj）（数值差除以极差）
f是标称或者二元的：两个对象的属性相等则d(i,j) = 0，不相等为1
f是序列的，和原来一样

假设一组数据，有数值、二元、序列三种属性，我们就分别得到三个相异矩阵，然后将三个矩阵中的每一项取平均（相加除以三）就得到了描述混合类型的相异性矩阵。

余弦相似性

当数值数据比较稀疏的时候，比如文档、基因，传统的距离度量效果不好，比如文档，我们关注的是共有的词，要忽略0匹配的值。我们利用余弦相似性来判断文档：

\[sim(x,y) = \frac{x·y}{||x|| ||y||} \]

其中||x||是向量x的长度，||y||是向量y的长度

大白话：余弦（cosx） = 向量积/向量模的积，夹角越大，cosx越接近于0，两者相关性越小，当cosx = 0时，二者正交，没有相关性，越接近与1，两者夹角越小，相关性越大

夹角越小，向量匹配

Tanimoto系数：x和y的共有属性和与x和y具有的属性之间的比较

sim(x,y) = x·y/(x·x+y·y-x·y）

大白话：Tanimoto系数可以表示为两个集合的交比上两个集合的并。两个人拥有相同的东西/两个人所有的东西可以看出两个人的相关程度，如果拥有相同东西越多表明两个人的兴趣爱好越相同（一般情况下）