数据挖掘读书笔记--第二章:认识数据

1. 一些散记知识点


1.1 数据对象与属性类型

  • 关于属性

    定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”

  • 属性的分类

    (1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉

    (2) 二元属性:二元属性是一种特殊的标称属性,只有两个类别或状态:0或1,若对应True和False则又称为布尔属性。
    注意:如果一个二元属性的两种状态具有同等价值并且携带相同权重;即关于哪个结果应该用0或1编码并无偏好。则称这个二元属性是对称的 例如“男、女”这两种状态;如果一个二元属性的状态结果不是同等重要的,如HIV的阳性和阴性,则称这个二元属性为非对称的。因为用1表示最重要的结果(通常是稀有的)编码(HIV阳性),另一方用0编码。
    (3) 序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值的差是未知的。例如:成绩的差、良好、优划分。
    注意,标称、二元和序数属性都是定性的,即他们描述对象的特征,而不给出实际大小或数值。
    (4) 数值属性:数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。


1.2 数据的基本统计描述

  • 中心趋势度量:均值、中位数和众数

(1) 均值(mean): 令 x 1 , . . . , x i , . . . , x N X N 个观测值,则该值集合的算术平均为:

x ¯ = i = 1 N x i N = x 1 + x 2 + . . . + x N N

若每个 x i 有对应的权重 w i ,则可以计算 加权平均为:
x ¯ = i = 1 N w i x i N = w 1 x 1 + w 2 x 2 + . . . + w N x N N

评价:尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。为了抵消少数极端值的影响,可以使用 截尾均值
(2) 中位数(median):对于倾斜的非对称数据,数据中心的更好的度量是中位数。假设某属性 X N 个值按递增序排列,如果 N 是奇数,则中位数为该有序集的中间值;如果 N 是偶数,则中位数不唯一,它可以是最中间两个值和它们之间的任意值,一般取二者平均。当观测数量很大时,中位数的计算开销很大。例如对给定形式为区间的数据分布:目标人群的收入10000~20000美元的人数为500,20000~30000美元的人数为200……中位数很难精确具体值,需要进行估计,用插值计算数据集的中位数近似值为:
m e d i a n = L i + N / 2 ( f r e q ) l f r e q m e d i a n w i d t h

其中, L i 是中位数的下界, N 是整个数据集数值的个数, ( f r e q ) l 是低于中位数区间的所有区间数值个数的频数和, f r e q m e d i a n 是中位数区间的频数, w i d t h 是中位数区间的宽度。
(3) 众数(mode):数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的。一般,具有两个或更多众数的数据集是多峰的。极端情况下,若集合中每个数值只出现一次,则该集合没有众数。
经验关系有 m e a n m o d e 3 × ( m e a n m e d i a n ) ,表示:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。
(4) 中列数:一个集合中的最大值减去最小值。
下图是数据的倾斜程度示意图:
这里写图片描述
众数出现在中位数之前,表示数据是正倾斜的,看“尾巴”数据表现为右偏;反之,众数出现的中位数之后,表示数据是负倾斜的,左偏。


1.3 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  • 极差、四分位数和四分位数极差

    极差:集合中最大值max()与最小值min()之差
    四分位数:4-分位数是3个数据点把数据(按大小升序排列)等分为4个相等的部分,使得每部分表示数据分布的四分之一。其中,第2个4-分位数为中位数。
    四分位数极差:第1个和第3个4-分位数之间的距离是散步的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为: I Q R = Q 3 Q 1

  • 五数概括、盒图与离散点
    (1) 识别可疑的离群点的通常规则是,挑选落在第3个4-分位数数之上或第1个4-分位数之下的至少 1.5 × I Q R 处的值。
    (2) 五数概括:中位数( Q 2 )、四分位数 Q 1 Q 3 、最小和最大观测值。即按次序: M i n i m u m , Q 1 , M e d i a n , Q 3 , M a x i m u m
    (3) 盒图
    i. 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
    ii. 中位数用盒内的线标记。
    iii. 盒外的两条线(称为胡须)延伸到最小(Minimum)和最大(Maximum)观测值。
    对于离群点,仅当最高和最低观测值超过四分位数不到 1.5 × I Q R ,胡须扩展到它们。否则,胡须在出现在四分位数的 1.5 × I Q R 之内的最极端的观测值处终止,剩下的情况个别绘出。如下图:
    这里写图片描述

  • 方差和标准差

(1) 方差:数值属性 X N 个观测值 x 1 , x 2 , . . . , x N 的方差是:

σ 2 = 1 N i = 1 N ( x i x ¯ ) 2 = ( 1 N i = 1 n x i 2 ) 2 x ¯ 2

(2)标准差:观测值的标准差 σ 是方差 σ 2 的平方根。可以证明最少 ( 1 1 k 2 ) × 100 % 的观测值离均值不超过 k 个标准差。


1.4 度量数据的相似性和相异性

  • 数据矩阵与相异性矩阵

(1) 数据矩阵(data matrix):数据矩阵或称对象-属性结构:这种数据结构用关系表的形式或 n × p ( n × p ) 矩阵存放n个数据对象。假设有n个对象(如人,商品),被p个属性(如身高、年龄、体重等)所刻画。这些对象是 x 1 = ( x 11 , x 12 , x 13 , . . . , x 1 p ) , x 2 = ( x 21 , x 22 , x 23 , . . . , x 2 p ) ,等等,其中 x i j 是对象 x i 的第 j 个属性的值。数据矩阵可以表示为如下:

[ x 11 x 1 f x 1 p x i 1 x i f x i p x n 1 x n f x n p ]

(2) 相异性矩阵(dissimilarity matrix):相异性矩阵或称对象-对象结构,存放n个对象两两之间的临近度(距离),通常用一个 n × n 的矩阵表示:

[ 0 d ( 2 , 1 ) 0 d ( 3 , 1 ) d ( 3 , 2 ) 0 d ( n , 1 ) d ( n , 2 ) 0 ]

其中, d ( i , j ) 表示对象i和j之间的相异性或距离,一般 d ( i , j ) 非负,当i和j相近时,其值接近于0;i和j远离时,其值接近于1。相似性度量可以表示为相异性度量的函数,对于标称函数:
s i m ( i , j ) = 1 d ( i , j )

对于,像相关系数,互信息熵这类的度量方式,在某种程度上可以看成相似性度量。

  • 标称属性的邻近性度量
    两个对象i和j的相异性,可以根据不匹配率来计算:

    d ( i , j ) = p m p

    其中,m是匹配的数目(即i和j取值状态相同的属性数),而p是刻画对象的属性总数。一个计算例子:

  • 序数属性的邻近性度量

序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知,如上图的表2.2的 t e s t -2属性。假设 f 是用于描述 n 个对象的一组序数属性之一。则关于 f 的相异性计算有以下步骤:

① 第 i 个对象的 f 值为 x i f ,属性 f M f 个有序的状态,表示排位 1 , . . . , M f 。用于对应排位 r i j { 1 , . . . , M f } 取代 x i f
② 将每个序数属性的值域映射到 [ 0.0 , 1.0 ] 之间,以便每个属性都有相同的权重,该权重定义为:

z i j = r i f 1 M f 1

③相异性可以用数值属性距离度量计算,使用 z i f 作为第 i 个对象的 f 值。
例如:上图的表2.2的 t e s t -2属性这里记作 f 有三个状态,分别是一般、好、优秀,即 M f = 3 ,第一步,把 f 的每个值替换为它的排位,则四个对象将分别被赋值为3、1、2、3。第二步,将排位1映射到0.0,排位2映射到0.5,排位3映射到1.0来实现对排位的规格化。第三步,使用欧几里得距离得到如下的相异性矩阵:
[ 0 1.0 0 0.5 0.5 0 0 1.0 0.5 0 ]

可以看出,对象1和2距离为1最大,不相似,对象2和4也不相似。对象1和4距离为0最小,最相似。

  • 二元属性的邻近性度量

(1) 对称的二元相异性:对于对称的二元属性,每个状态都同样重要。对于下表,如果对象i和j都用对称的二元属性刻画,则i和j的相异性为:

d ( i , j ) = r + s q + r + s + t

这里写图片描述

(2) 非对称的二元相异性:对于非对称的二元属性,两个状态不是同等重要的。给定两个非对称二元属性,若两个都取值为1的情况(正匹配)被认为比两个都取0的情况(负匹配)更有意义。可以在计算时忽略负匹配数。对于上表计算非对称二元相异性为:

d ( i , j ) = r + s q + r + s

  • 数值属性的相异性

可用于计算数值属性刻画的对象的相异性的距离度量有:欧几里得距离、曼哈顿距离和闵可夫斯基距离等。令 i = ( x i 1 , x i 2 , . . . , x i p ) j = ( x j 1 , x j 2 , . . . , x j p ) 是两个被p个数值属性描述的对象。

(1)欧几里得距离:上述对象i和j的欧几里得距离定义为:

d ( i , j ) = ( x i 1 x j 1 ) 2 + ( x i 2 x j 2 ) 2 + . . . + ( x i p x j p ) 2

(2) 曼哈顿距离:上述对象i和j的曼哈顿距离定义为:

d ( i , j ) = | x i 1 x j 1 | + | x i 2 x j 2 | + . . . + | x i p x j p |

(3) 闵可夫斯基距离:闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广,定义如下:

d ( i , j ) = | x i 1 x j 1 | h + | x i 2 x j 2 | h + . . . + | x i p x j p | h h

这种距离又被称为 L h 范数 ( h 1 ) ,当 ( h = 1 ) 时它表示曼哈顿距离即 L 1 范数,当 ( h = 2 ) 它表示欧几里得距离即 L 2 范数。

(3) 上确界距离:又称 L m a x , L 范数和切比雪夫距离,是 h 时闵可夫斯距离的推广,形式化地定义为:

d ( i , j ) = lim h ( f = 1 p | x i f x j f | h ) 1 h = max f p | x i f x j f |

以上距离都满足如下数学性质:

  • 非负性 d ( i , j ) 0 :距离是一个非负的数值
  • 同一性 d ( i , i ) = 0 : 对象到自身的距离为0
  • 对称性 d ( i , j ) = d ( j , i ) : 距离是一个对称函数
  • 三角不等式 d ( i , j ) d ( i , k ) + d ( k , j ) :从对象i到对象j的直接距离不会大于途径任何其他对象k的距离

满足以上条件的距离称作度量(metric)

  • 混合类型属性的相异性

将所有属性类型一起处理,只做一次分析。即将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间 [ 0.0 , 1.0 ] 中。假设数据集包含p个混合类型的属性,对象 i j 之间的相异性 d ( i , j ) 定义为:

d ( i , j ) = f = 1 p δ i j ( f ) d i j ( f ) f = 1 p δ i j ( f )

其中,如果 x i f x j f 缺失(即对象i或j没有属性f的度量值)或属性f为非对称二元属性的不重要值 x i f = x j f = 0 ,则指示符 δ i j ( f ) = 0 。否则,为1。属性 f 对于i和j之间相异性的贡献 d i j ( f ) 根据它的类型计算:

  • f 是数值的: d i j ( f ) = | x i f x j f | m a x h x h f m i n h x h f ,其中 h 遍取f的所有非缺失对象。
  • f 是标称或二元的:如果 x i f = x j f ,则 d i j ( f ) = 0 ;否则等于1
  • f 是序数的:计算排位 r i f z i f = r i f 1 M f 1 ,并将 z i f 作为数值属性对待。

    • 余弦相似性

余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。令 x y 是两个待比较的向量,则余弦相似性为:

s i m ( x , y ) = x y | | x | | | | y | |

余弦值为0意味着两个向量呈90度夹角,没有匹配。余弦值越接近于1,夹角越小,向量之间的匹配越大。
当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设 x i = 1 ,则对象x具有第i个属性,此时 x y 是x和y共有的属性数,而 | x | | y | 是x具有的属性数与y具有的属性数的几何均值。于是, s i m ( x , y ) 是公共属性相对拥有的一种度量。
对于这种情况,余弦度量的一个简单的变种如下:
s i m ( x , y ) = x y x x + y y x y

这是x和y所共有的属性个数与x或y所具有的属性个数之间的比值。这个函数称为 Tanimoto系数(距离)

猜你喜欢

转载自blog.csdn.net/weixin_40170902/article/details/79639490
今日推荐