《数据挖掘概念与技术》学习笔记-第二章

2.1 给出三个用于数据散布特征的常用统计度量,并讨论如何在大型数据库中有效地计算它们。

1.移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样的方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
2.异众比率(Variation Ratio)
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度,即衡量众数达标一组数据一般水平的代表性。异众比率越小,说明数据的集中程度越高。
3.离散系数(Coefficient Variation)
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称为标准差系数,即: V σ = σ x ˉ V_{σ}=\frac{σ}{\bar{x}} 。离散系数越大,说明数据的离散程度越大。

2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

(a)该数据的均值是多少,中位数是什么

(b)该数据的众数是什么,讨论数据的模态

(c)该数据的中列数是多少

(d)粗略地找出该数据第一个四分位数(Q1)和第三个四分位数(Q3

(e)给出该数据的五数概括

(f)绘制该数据的盒图

(g)分位数-分位数图与分位数图有何不同

(a)均值是29.96,中位数是25
(b)众数是25和35,数据的模态是双峰的。
(c)中列数是 70 + 13 2 = 41.5 \frac{70+13}{2}=41.5
(d)Q1是第二个20,Q3是第四个35
(f) 采用R语言绘制的盒图如下:
在这里插入图片描述
(g)分位数图横轴为f值,竖轴为属性值,用以观察单个变量的数据分布;分位数-分位数图,即q-q图,横轴和竖轴分别是对某个变量不同观测集的值,用以观察从一个分布到另一个分布数据是否有漂移。

2.3 设给定的数据集已经分组到区间,这些区间和对应频率如下所示:

age frequency
1~5 200
6~15 450
16~20 300
21~50 1500
51~80 700
81~110 44

计算该数据的近似中位数。

中位数区间为21~50,则中位数区间下界为 L 1 = 21 , N = 3194 , ( Σ f r e q ) l = 950 , f r e q m e d i a n = 1500 , w i d t h = 30 L_{1}=21, N=3194, (\Sigma{freq})_{l}=950, freq_{median}=1500,width=30 ,根据插值计算方法,则有 m e d i a n = L 1 + ( N / 2 ( Σ f r e q ) l f r e q m e d i a n ) w i d t h = 33.94 median=L_{1}+(\frac{N/2-(\Sigma{freq})_{l}}{freq_{median}})width=33.94

2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:

age 23 23 27 27 39 41 47 49 50
%fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
age 52 54 54 56 57 58 58 60 61
%fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7

(a)计算age和%fat的均值、中位数和标准差

(b)绘制age和%fat的盒图

(c)绘制基于这两个变量的散点图和q-q图

(a) a v g ( a g e ) 46.44 , a v g ( f a t ) 28.78 avg(age)\approx46.44, avg(fat)\approx28.78
   m e d i a n ( a g e ) = 51 , m e d i a n ( f a t ) = 30.7 median(age)=51, median(fat)=30.7
   σ ( a g e ) 13.22 , σ ( f a t ) 9.25 \sigma(age)\approx13.22, \sigma(fat)\approx9.25
(b)
在这里插入图片描述
(c)散点图
在这里插入图片描述
  q-q图

2.5 简要概述如何计算被如下属性描述的对象的相异性:

(a)标称属性

(b)非对称的二元属性

(c)数值属性

(d)词频向量

(a)两个标称属性描述的对象 i i j j 之间的相异性可以根据不匹配率来计算: d ( i , j ) = p m p (1) d(i,j)=\frac{p-m}{p} \tag{1} 其中, m m 是匹配的数目(即 i i j j 取值相同的属性数),而 p p 是刻画对象的属性总数。可以通过赋予 m m 较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加 m m 的影响。
(b)二元属性的相异性通过列联表进行计算,其中,非对称的二元属性相异性计算,需要忽略负匹配数,即 d ( i , j ) = r + s q + r + s (2) d(i,j)=\frac{r+s}{q+r+s} \tag{2} 式中的分母部分省略掉了负匹配数 t t
(c)数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为: d ( i , j ) = ( x i 1 x j 1 ) 2 + ( x i 2 x j 2 ) 2 + + ( x i p x j p ) 2 (3) d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2} \tag{3} 曼哈顿距离表示为: d ( i , j ) = x i 1 x j 1 + x i 2 x j 2 + + x i p x j p (4) d(i,j)=\lvert x_{i1}-x_{j1} \rvert+\lvert x_{i2}-x_{j2} \rvert+\cdots+\lvert x_{ip}-x_{jp} \rvert \tag{4} 闵可夫斯基距离,又称 L p L_{p} 范数, p p h h ,表示为: d ( i , j ) = x i 1 x j 1 h + x i 2 x j 2 h + + x i p x j p h h (5) d(i,j)=\sqrt[h]{\lvert x_{i1}-x_{j1} \rvert^h+\lvert x_{i2}-x_{j2} \rvert^h+\cdots+\lvert x_{ip}-x_{jp} \rvert^h} \tag{5} h h\rightarrow \infty 时,闵可夫斯基距离推广为上确界距离,又称 L m a x , L L_{max},L_\infty 范数或切比雪夫距离或一致范数,表示为: d ( i , j ) = lim h ( f = 1 p x i f x j f h ) 1 h = max f p x i f x j f (6) d(i,j)=\lim\limits_{h\rightarrow\infty}\Big(\sum\limits_{f=1}^p\lvert x_{if}-x_{jf}\rvert^h\Big)^{\frac{1}{h}}=\max\limits_f^p\lvert x_{if}-x_{jf}\rvert \tag{6} 如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离表示为: d ( i , j ) = ω 1 x i 1 x j 1 2 + ω 2 x i 2 x j 2 2 + + ω p x i p x j p 2 (7) d(i,j)=\sqrt{\omega_1\lvert x_{i1}-x_{j1} \rvert^2+\omega_2\lvert x_{i2}-x_{j2} \rvert^2+\cdots+\omega_p\lvert x_{ip}-x_{jp} \rvert^2} \tag{7}
(d)计算词频向量的相似性,需要忽略0匹配的数值。可以采用余弦相似性度量,表示为: s i m ( x , y ) = x y x   y (8) sim(x,y)=\frac{x\cdot y}{\lvert\lvert x\rvert\rvert\ \lvert\lvert y\rvert\rvert} \tag{8} 其中, x x y y 分别是各向量的欧几里得范数,即向量的长度。

2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。

(a)计算这两个对象之间的欧几里得距离

(b)计算这两个对象之间的曼哈顿距离

(c)使用p=3,计算这两个对象之间的闵可夫斯基距离

(d)计算这两个对象之间的上确界距离

(a)根据公式(3)可得欧几里得距离约为 6.708204 6.708204
(b)根据公式(4)可得曼哈顿距离为11
(c)根据公式(5)可得闵可夫斯基距离约为6.153449
(d)根据公式(6)可得上确界距离为6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。

插值法

2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:

A1 A2
x1 1.5 1.7
x2 2 1.9
x3 1.6 1.8
x4 1.2 1.5
x5 1.5 1.0

(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。

(b)规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

(a)欧几里得距离排序:

x
x1 0.1414214
x4 0.2236068
x3 0.2828427
x5 0.6082763
x2 0.6708204

曼哈顿距离排序:

x
x1 0.2
x4 0.3
x3 0.4
x5 0.7
x2 0.9

上确界距离排序:

x
x1 0.1
x4 0.2
x3 0.2
x5 0.6
x2 0.6

余弦相似性排序:

x
x1 0.0293405394190871
x4 0.0548055882352941
x3 0.05524271484375
x2 0.114866506849315
x5 0.164399

(b)规格化的数据表

A1 A2
x1 0.6616216 0.7498379
x2 0.7249994 0.6887495
x3 0.6643638 0.7474093
x4 0.6246950 0.7808688
x5 0.8320503 0.5547002

欧几里得距离排序

x
x1 1.126045416
x3 1.126086778
x4 1.127862437
x2 1.134020859
x5 1.189629584

致谢

感谢广大网友!
主要参考内容:
[1]https://blog.csdn.net/pipisorry/article/details/72820982
[2]https://blog.csdn.net/fjssharpsword/article/details/74911180
[3]https://blog.csdn.net/qq_24336773/article/details/80676059
[4]https://blog.csdn.net/xxzhangx/article/details/53153821

发布了6 篇原创文章 · 获赞 24 · 访问量 567

猜你喜欢

转载自blog.csdn.net/Xavier_8031/article/details/103639925