数据对象与属性类型
数据集由数据对象组成,一个数据对象代表一个实体。
属性是一个数据字段,表示数据对象的一个特征
标称属性的值是一些符号或者事务的名称
二元属性是一种标称属性,只有两个类别或者状态:0或者1
序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小)
数值属性
- 区间标度属性:属性涌向等的单位尺度度量。
- 比率标度属性:属性是具有固定零点的数值属性。
离散属性与连续属性
数据的基本统计描述
中心趋势度量:均值、中位数、众数
- 均值
加权算术均值或加权平均
- 中位数
- 众数
众数是出现最频繁的值, 一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的
- 中列数:是数据集最大值和最小值得平均值
度量数据散步:极差、四分位数、方差、标准差和四分位极差
- 极差是该集合最大与最小值得差
- 四分位数如下图
分位数是取自数据分布得每隔一定间隔得点,把数据分成基本上大小相等得连贯集合。第一个四分位数记作 ,第三个四分位数记作
- 四分位极差:
- 五数概括由中位数( )、四分位数 、最小和最大观测值组成,表现方式:盒图
- 方差和标准差:
数据基本统计描述得图形显示
- 分位数图
- 分位数-分位数图
- 直方图
- 散点图与数据相关
数据可视化
数据可视化是通过图形表示清晰有效地表达数据。
度量数据的相似性和相异性
数据矩阵与相异性矩阵
- 数据矩阵:这种数据结构用关系表的形式或者
矩阵存放n个数据对象。
- 相异性矩阵: 存放n个对象两两之间的邻近度。
其中 是对象i和对象j之间的相异性或者“差别”的度量
相似性度量可以表示成相异性度量的函数。例如,对于标称数据:
标称属性得邻近性度量
m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。
例子:
上表中我们只有test-1是标称属性。
二元属性得邻近性度量
- 对称的二元相异性
- 非对称的二元相异性
q是对象i和对象j都取1的属性数。
数值属性得相异性:闵可夫斯基距离
- 欧几里得距离
- 曼哈顿距离
- 闵科夫斯基距离
是欧几里得距离和曼哈段距离的推广
- 上确界距离(又称
,和切比雪夫距离)
是h趋向于无穷时闵科夫斯基距离的推广
序数属性得邻近性度量
如何处理序数属性的邻近性度量,以表2.2为例, 分三步:
- 第一步,把test-2的每个值替换成他的排位,则四个对象的排位分别是3、1、2、3
- 第二步,通过将排位1、2、3分别映射成0.0、0.5、1.0来实现对排位的规格化
- 第三步,使用欧几里得矩阵获得如下的相异性矩阵
混合类型属性得相异性
对于表2.2,test-3的相异性矩阵为
如果计算三个属性的相异性矩阵,对于第三和第一个属性,
,那么由三个属性所描述的数据得到的相异性矩阵如下:
余弦相似性
文档用数以千计的属性表示,每个记录文档中的一个特定词(如关键词)或短语的频度。每个文档都被一个所谓的词频向量表示,如下表
词频向量通常很长,并且是稀疏的(即,它们有很多零值),但我们关注的时两个文档确实共有的此,以及这种词出现的频率,忽略掉0匹配的数值数据度量,这时候就用到了余弦相似性:
一个对于表2.5的例子