数据预处理课后习题

3.3
在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。
(a)使用深度为3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对给定数据的效果
(b)如何确定该数据中的离群点?
(c)还有什么其他方法来光滑数据?

a)步骤:
步骤1:对数据进行排序,给定顺序已经排序完成
步骤2:将数据划分到大小为3的等频箱中。
箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46 52 70
步骤3:计算每个等频箱的算数均值。
步骤4:用各箱计算得到的均值替换每箱中的所有值。
箱1:44/3 ,44/3 , 44/3 箱2:55/3 , 55/3, 55/3 箱3:21,21,21 箱4:24,24,24 箱5:80/3, 80/3, 80/3 箱6:101/3, 101/3, 101/3 箱7:35, 35, 35 箱8:121/3 , 121/3 , 121/3 箱9:56,56,56
b)确定离群点:聚类的方法可用来将相似的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。作为选择,一种人机结合的检测可被采用,而计算机用一种事先决定的数据分布来区分可能的离群点。
c)其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界光滑。作为选择,等宽箱可被用来执行任何分箱方式,其中每个箱中的数据范围均是常量。除了分箱方法外,可以使用回归技术拟合成函数来光滑数据,如通过线性或多线性回归。分类技术也能被用来对概念分层,这是通过将低级概念上卷到高级概念来光滑数据。

3.6使用如下方法规范化如下数据组
200,300,400,600,1000
(a)令min=0,max=1,最小-最大规范化。
(b)z分数规范化
(c)小数定标规范化
(a)在这里插入图片描述
在这里插入图片描述
则可求得均值u=500,标准差约等于282.84
在这里插入图片描述
在这里插入图片描述
修改3问:小数定标规范化,其中j应为4,
结果为:

200 0.02
300 0.03
400 0.04
600 0.06
1000 0.1

3.9假设12个销售价格记录已经排序,如下所示:
5,10,11,13,15,35,50,55,72,92,204,215
使用如下各方法将他们划分为三个箱。
(a)等频(等深)划分

box1 5,10,11,13
box2 15,35,50,55
box3 72,92,204,215

(b)等宽划分(仅作参考)

box1 5,10,11,13,15,35,50,55
box2 72,92
box3 204,215

总结一下规范化方法

三种规范化方法:
在这里插入图片描述

三种规范化方法值域:
在这里插入图片描述

发布了21 篇原创文章 · 获赞 43 · 访问量 5000

猜你喜欢

转载自blog.csdn.net/weixin_42878211/article/details/104936994