2.1 给出三个用于数据散布特征的常用统计度量,并讨论如何在大型数据库中有效地计算它们。
1.移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样的方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算公用一个点的值。一般来说,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。
2.异众比率(Variation Ratio)
是指非众数值的次数之和在总次数中所占的比重。异众比率用于衡量一组以众数为分布中心的集中程度,即衡量众数达标一组数据一般水平的代表性。异众比率越小,说明数据的集中程度越高。
3.离散系数(Coefficient Variation)
是变异系数、极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。将极差与算术平均数对比而得到极差系数,将平均差与算术平均数对比得到平均差系数。最常用的离散系数是用标准差来计算的,称为标准差系数,即:
。离散系数越大,说明数据的离散程度越大。
2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)该数据的均值是多少,中位数是什么
(b)该数据的众数是什么,讨论数据的模态
(c)该数据的中列数是多少
(d)粗略地找出该数据第一个四分位数(Q1)和第三个四分位数(Q3)
(e)给出该数据的五数概括
(f)绘制该数据的盒图
(g)分位数-分位数图与分位数图有何不同
(a)均值是29.96,中位数是25
(b)众数是25和35,数据的模态是双峰的。
(c)中列数是
(d)Q1是第二个20,Q3是第四个35
(f) 采用R语言绘制的盒图如下:
(g)分位数图横轴为f值,竖轴为属性值,用以观察单个变量的数据分布;分位数-分位数图,即q-q图,横轴和竖轴分别是对某个变量不同观测集的值,用以观察从一个分布到另一个分布数据是否有漂移。
2.3 设给定的数据集已经分组到区间,这些区间和对应频率如下所示:
age | frequency |
---|---|
1~5 | 200 |
6~15 | 450 |
16~20 | 300 |
21~50 | 1500 |
51~80 | 700 |
81~110 | 44 |
计算该数据的近似中位数。
中位数区间为21~50,则中位数区间下界为 ,根据插值计算方法,则有 。
2.4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得到如下结果:
age | 23 | 23 | 27 | 27 | 39 | 41 | 47 | 49 | 50 |
---|---|---|---|---|---|---|---|---|---|
%fat | 9.5 | 26.5 | 7.8 | 17.8 | 31.4 | 25.9 | 27.4 | 27.2 | 31.2 |
age | 52 | 54 | 54 | 56 | 57 | 58 | 58 | 60 | 61 |
---|---|---|---|---|---|---|---|---|---|
%fat | 34.6 | 42.5 | 28.8 | 33.4 | 30.2 | 34.1 | 32.9 | 41.2 | 35.7 |
(a)计算age和%fat的均值、中位数和标准差
(b)绘制age和%fat的盒图
(c)绘制基于这两个变量的散点图和q-q图
(a)
,
,
(b)
(c)散点图
q-q图
2.5 简要概述如何计算被如下属性描述的对象的相异性:
(a)标称属性
(b)非对称的二元属性
(c)数值属性
(d)词频向量
(a)两个标称属性描述的对象
和
之间的相异性可以根据不匹配率来计算:
其中,
是匹配的数目(即
和
取值相同的属性数),而
是刻画对象的属性总数。可以通过赋予
较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加
的影响。
(b)二元属性的相异性通过列联表进行计算,其中,非对称的二元属性相异性计算,需要忽略负匹配数,即
式中的分母部分省略掉了负匹配数
。
(c)数值属性的相异性采用对象之间的距离进行描述。包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。其中欧几里得距离表示为:
曼哈顿距离表示为:
闵可夫斯基距离,又称
范数,
即
,表示为:
当
时,闵可夫斯基距离推广为上确界距离,又称
范数或切比雪夫距离或一致范数,表示为:
如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离表示为:
(d)计算词频向量的相似性,需要忽略0匹配的数值。可以采用余弦相似性度量,表示为:
其中,
和
分别是各向量的欧几里得范数,即向量的长度。
2.6 给定两个被元组(22,1,42,10)和(20,0,36,8)表示的对象。
(a)计算这两个对象之间的欧几里得距离
(b)计算这两个对象之间的曼哈顿距离
(c)使用p=3,计算这两个对象之间的闵可夫斯基距离
(d)计算这两个对象之间的上确界距离
(a)根据公式(3)可得欧几里得距离约为
(b)根据公式(4)可得曼哈顿距离为11
(c)根据公式(5)可得闵可夫斯基距离约为6.153449
(d)根据公式(6)可得上确界距离为6
2.7 中位数是数据分析中最重要的整体度量之一。提出几种中位数近似计算方法。在不同的参数设置下,分析它们各自的复杂度,并确定它们的实际近似程度。此外,提出一种启发式策略,平衡准确性与复杂性,然后把它用于你给出的所有方法。
插值法
2.8 在数据分析中,重要的是选择相似性度量。然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而异。虽然如此,在进行某种变换后,看来似乎不同的相似性度量可能等价。假设我们有如下二维数据集:
A1 | A2 | |
---|---|---|
x1 | 1.5 | 1.7 |
x2 | 2 | 1.9 |
x3 | 1.6 | 1.8 |
x4 | 1.2 | 1.5 |
x5 | 1.5 | 1.0 |
(a)把该数据看做二维数据点。给定一个新数据点x=(1.4,1.6)作为查询点,使用欧几里得距离、曼哈顿距离、上确界距离和余弦相似性,基于与查询点的相似性对数据库的点排位。
(b)规格化该数据集,使得每个数据点的范数等于1。在变换后的数据上使用欧几里得距离对诸数据点排位。
(a)欧几里得距离排序:
x | |
---|---|
x1 | 0.1414214 |
x4 | 0.2236068 |
x3 | 0.2828427 |
x5 | 0.6082763 |
x2 | 0.6708204 |
曼哈顿距离排序:
x | |
---|---|
x1 | 0.2 |
x4 | 0.3 |
x3 | 0.4 |
x5 | 0.7 |
x2 | 0.9 |
上确界距离排序:
x | |
---|---|
x1 | 0.1 |
x4 | 0.2 |
x3 | 0.2 |
x5 | 0.6 |
x2 | 0.6 |
余弦相似性排序:
x | |
---|---|
x1 | 0.0293405394190871 |
x4 | 0.0548055882352941 |
x3 | 0.05524271484375 |
x2 | 0.114866506849315 |
x5 | 0.164399 |
(b)规格化的数据表
A1 | A2 | |
---|---|---|
x1 | 0.6616216 | 0.7498379 |
x2 | 0.7249994 | 0.6887495 |
x3 | 0.6643638 | 0.7474093 |
x4 | 0.6246950 | 0.7808688 |
x5 | 0.8320503 | 0.5547002 |
欧几里得距离排序
x | |
---|---|
x1 | 1.126045416 |
x3 | 1.126086778 |
x4 | 1.127862437 |
x2 | 1.134020859 |
x5 | 1.189629584 |
致谢
感谢广大网友!
主要参考内容:
[1]https://blog.csdn.net/pipisorry/article/details/72820982
[2]https://blog.csdn.net/fjssharpsword/article/details/74911180
[3]https://blog.csdn.net/qq_24336773/article/details/80676059
[4]https://blog.csdn.net/xxzhangx/article/details/53153821