数据与挖掘 笔记(2)Data Transformation

数据的类型(Attribute type)
1.Contiue 人的体重身高
2.Discrete 离散型数据,人的个数
3.Ordinal 等级制:ABC
4.Nominal 平行类:红黄蓝
5.String 文本型

注: 比较特殊的是Nominal的数据,因为如果单纯的设为0,1,2,无形之间拉大了第一个和第三个类型数据的距离。
所以,对Nominal数据的处理方法,若数据量较少,可设为:

[1,0,0,0]
[0,1,0,0]
[0,0,1,0]
[0,0,0,1]

采样(Sampling)
与统计学不同,正因为数据完备,无从检索,我们选取采样的方法来进行数据挖掘。这是一种减少繁冗的方法。
比如:
Change of scale :城市变为州,
Over samping :对数据量过少的样本进行周围适当扩充(SMOTE的工作原理)
Boudary sampling:边缘数据的重要性

分类器好坏的判别:
这里写图片描述

对于红和蓝的区别,尽管A有更高的正确率,但B才是真正做到了分出红和蓝,这就是不平衡数据的悖论。
即我们不能用准确率来判断所有数据。
有以下方法来解决:
这里写图片描述

其他:
1.对于极度不平衡的二分类数据集,应特别注意小样本的数据

猜你喜欢

转载自blog.csdn.net/weixin_42511216/article/details/81626575
今日推荐