《数据挖掘概念与技术》学习笔记-第二章

2.1 给出三个用于数据散布特征的常用统计度量，并讨论如何在大型数据库中有效地计算它们。

1.移动极差（Moving Range）
是指两个或多个连续样本值中最大值与最小值之差，这种差是按这样的方式计算的：每当得到一个额外的数据点时，就在样本中加上这个新的点，同时删除其中时间上“最老的”点，然后计算与这点有关的极差，因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说，移动极差用于单值控制图，并且通常用两点（连续的点）来计算移动极差。
2.异众比率（Variation Ratio）
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度，即衡量众数达标一组数据一般水平的代表性。异众比率越小，说明数据的集中程度越高。
3.离散系数（Coefficient Variation）
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率，以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数，将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的，称为标准差系数，即： $V_{σ}=\frac{σ}{\bar{x}}$ 。离散系数越大，说明数据的离散程度越大。

2.2 假设所分析的数据包括属性age，它在数据元组中的值（以递增序）为13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。

（a）该数据的均值是多少，中位数是什么

（b）该数据的众数是什么，讨论数据的模态

（c）该数据的中列数是多少

（d）粗略地找出该数据第一个四分位数（Q₁）和第三个四分位数（Q₃）

（e）给出该数据的五数概括

（f）绘制该数据的盒图

（g）分位数-分位数图与分位数图有何不同

（a）均值是29.96，中位数是25
（b）众数是25和35，数据的模态是双峰的。
（c）中列数是 $\frac{70+13}{2}=41.5$
（d）Q₁是第二个20，Q₃是第四个35
（f）采用R语言绘制的盒图如下：
在这里插入图片描述
（g）分位数图横轴为f值，竖轴为属性值，用以观察单个变量的数据分布；分位数-分位数图，即q-q图，横轴和竖轴分别是对某个变量不同观测集的值，用以观察从一个分布到另一个分布数据是否有漂移。

2.3 设给定的数据集已经分组到区间，这些区间和对应频率如下所示：

age	frequency
1~5	200
6~15	450
16~20	300
21~50	1500
51~80	700
81~110	44

计算该数据的近似中位数。

中位数区间为21~50，则中位数区间下界为 $L_{1}=21, N=3194, (\Sigma{freq})_{l}=950, freq_{median}=1500,width=30$ ，根据插值计算方法，则有 $median=L_{1}+(\frac{N/2-(\Sigma{freq})_{l}}{freq_{median}})width=33.94$ 。

2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖，得到如下结果：

age	23	23	27	27	39	41	47	49	50
%fat	9.5	26.5	7.8	17.8	31.4	25.9	27.4	27.2	31.2

age	52	54	54	56	57	58	58	60	61
%fat	34.6	42.5	28.8	33.4	30.2	34.1	32.9	41.2	35.7

（a）计算age和%fat的均值、中位数和标准差

（b）绘制age和%fat的盒图

（c）绘制基于这两个变量的散点图和q-q图

（a） $avg(age)\approx46.44, avg(fat)\approx28.78$ ，
$median(age)=51, median(fat)=30.7$ ，
$\sigma(age)\approx13.22, \sigma(fat)\approx9.25$
（b）
在这里插入图片描述
（c）散点图

q-q图

2.5 简要概述如何计算被如下属性描述的对象的相异性：

（a）标称属性

（b）非对称的二元属性

（c）数值属性

（d）词频向量

（a）两个标称属性描述的对象 $i$ 和 $j$ 之间的相异性可以根据不匹配率来计算： $d(i,j)=\frac{p-m}{p} \tag{1}$ 其中， $m$ 是匹配的数目（即 $i$ 和 $j$ 取值相同的属性数），而 $p$ 是刻画对象的属性总数。可以通过赋予 $m$ 较大的权重，或者赋给有较多状态的属性的匹配更大的权重来增加 $m$ 的影响。
（b）二元属性的相异性通过列联表进行计算，其中，非对称的二元属性相异性计算，需要忽略负匹配数，即 $d(i,j)=\frac{r+s}{q+r+s} \tag{2}$ 式中的分母部分省略掉了负匹配数 $t$ 。
（c）数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为： $d(i,j)=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2} \tag{3}$ 曼哈顿距离表示为： $d(i,j)=\lvert x_{i1}-x_{j1} \rvert+\lvert x_{i2}-x_{j2} \rvert+\cdots+\lvert x_{ip}-x_{jp} \rvert \tag{4}$ 闵可夫斯基距离，又称 $L_{p}$ 范数， $p$ 即 $h$ ，表示为： $d(i,j)=\sqrt[h]{\lvert x_{i1}-x_{j1} \rvert^h+\lvert x_{i2}-x_{j2} \rvert^h+\cdots+\lvert x_{ip}-x_{jp} \rvert^h} \tag{5}$ 当 $h\rightarrow \infty$ 时，闵可夫斯基距离推广为上确界距离，又称 $L_{max},L_\infty$ 范数或切比雪夫距离或一致范数,表示为： $d(i,j)=\lim\limits_{h\rightarrow\infty}\Big(\sum\limits_{f=1}^p\lvert x_{if}-x_{jf}\rvert^h\Big)^{\frac{1}{h}}=\max\limits_f^p\lvert x_{if}-x_{jf}\rvert \tag{6}$ 如果对每个变量根据其重要性赋予一个权重，则加权的欧几里得距离表示为： $d(i,j)=\sqrt{\omega_1\lvert x_{i1}-x_{j1} \rvert^2+\omega_2\lvert x_{i2}-x_{j2} \rvert^2+\cdots+\omega_p\lvert x_{ip}-x_{jp} \rvert^2} \tag{7}$
（d）计算词频向量的相似性，需要忽略0匹配的数值。可以采用余弦相似性度量，表示为： $sim(x,y)=\frac{x\cdot y}{\lvert\lvert x\rvert\rvert\ \lvert\lvert y\rvert\rvert} \tag{8}$ 其中， $x$ 和 $y$ 分别是各向量的欧几里得范数，即向量的长度。

2.6 给定两个被元组（22，1，42，10）和（20，0，36，8）表示的对象。

（a）计算这两个对象之间的欧几里得距离

（b）计算这两个对象之间的曼哈顿距离

（c）使用p=3，计算这两个对象之间的闵可夫斯基距离

（d）计算这两个对象之间的上确界距离

（a）根据公式（3）可得欧几里得距离约为 $6.708204$
（b）根据公式（4）可得曼哈顿距离为11
（c）根据公式（5）可得闵可夫斯基距离约为6.153449
（d）根据公式（6）可得上确界距离为6

2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下，分析它们各自的复杂度，并确定它们的实际近似程度。此外，提出一种启发式策略，平衡准确性与复杂性，然后把它用于你给出的所有方法。

插值法

2.8 在数据分析中，重要的是选择相似性度量。然而，不存在广泛接受的主观相似性度量，结果可能因所用的相似性度量而异。虽然如此，在进行某种变换后，看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集：

	A₁	A₂
x₁	1.5	1.7
x₂	2	1.9
x₃	1.6	1.8
x₄	1.2	1.5
x₅	1.5	1.0

（a）把该数据看做二维数据点。给定一个新数据点x=（1.4，1.6）作为查询点，使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性，基于与查询点的相似性对数据库的点排位。

（b）规格化该数据集，使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。

（a）欧几里得距离排序：

	x
x₁	0.1414214
x₄	0.2236068
x₃	0.2828427
x₅	0.6082763
x₂	0.6708204

曼哈顿距离排序：

	x
x₁	0.2
x₄	0.3
x₃	0.4
x₅	0.7
x₂	0.9

上确界距离排序：

	x
x₁	0.1
x₄	0.2
x₃	0.2
x₅	0.6
x₂	0.6

余弦相似性排序：

	x
x₁	0.0293405394190871
x₄	0.0548055882352941
x₃	0.05524271484375
x₂	0.114866506849315
x₅	0.164399

（b）规格化的数据表

	A₁	A₂
x₁	0.6616216	0.7498379
x₂	0.7249994	0.6887495
x₃	0.6643638	0.7474093
x₄	0.6246950	0.7808688
x₅	0.8320503	0.5547002

欧几里得距离排序

	x
x₁	1.126045416
x₃	1.126086778
x₄	1.127862437
x₂	1.134020859
x₅	1.189629584

致谢

感谢广大网友！
主要参考内容：
[1]https://blog.csdn.net/pipisorry/article/details/72820982
[2]https://blog.csdn.net/fjssharpsword/article/details/74911180
[3]https://blog.csdn.net/qq_24336773/article/details/80676059
[4]https://blog.csdn.net/xxzhangx/article/details/53153821

Xavier_8031

发布了6 篇原创文章 · 获赞 24 · 访问量 567

私信关注