数据挖掘之浅谈认识数据

欧几里得距离:
在这里插入图片描述
曼哈顿距离:
在这里插入图片描述
欧几里得距离和曼哈顿距离满足以下数学性质:
在这里插入图片描述
闵可夫斯基距离:
在这里插入图片描述
上确界距离:
在这里插入图片描述
余弦相似性:
余弦相似性其实是一种变量,它可以用来比较文档,或是针对给定的查询词向量对文档排序。令x,y是两个待比较的向量,使用余弦度量作为相似性函数,我们有如下:
在这里插入图片描述
小练习:
在数据分析中,最重要的是选择相似性度量,然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:
在这里插入图片描述
(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离、和余弦相似性,基于与查询点的相似性对数据库的点排位
(b)规格化该数据集,使得每个数据点的范数等于1.在变换后的数据上使用欧几里得距离对诸数据点排位。

1 、经过计算的欧几里得距离分别为 0.14 0.67 0.28 0.22 0.61 曼哈顿距离分别为:0.2 0.9 0.4 0.3 0.7 上确界距离为分别为: 0.1 0.6 0.2 0.2 0.6 余弦相似性分别为:0.9999 0.9957 0.9999 0.9990 0.9653
所以排序为:
欧几里得距离: x1,x4,x3,x5,x2
曼哈顿距离:x1,x4,x3,x5,x2
上确界距离:x1,x4,x3,x5,x2
余弦相似性:x1,x3,x4,x2,x5

2 归一化后的数据为x1 (0.6616, 0.7498 ) 、x2(0.7250,0.6887)、x3(0.6644,0.7474)、x4(0.6247,0.7089)、x5(0.8321,0.5547) x(0.6585,0.7526)重新计算后的欧几里得距离分别为:0.14 0.67 0.28 0.22 0.61 排序为:x1,x3,x4,x2,x5;
在这里插入图片描述

发布了21 篇原创文章 · 获赞 43 · 访问量 5003

猜你喜欢

转载自blog.csdn.net/weixin_42878211/article/details/104909045